【Python】统计B站弹幕数据

所用版本:Python 3.6,requests 2.18.4,jieba 0.42.1,nltk 3.2.4,wordcloud 1.8.1

程序实现的功能:输入视频的地址,生成对应弹幕的词云。

每个视频都对应一个弹幕的xml文件,地址为https://comment.bilibili.com/(cid).xml,每个视频都有一个cid。将视频的网页爬取,然后从中搜索“cid”,就可以看到cid在哪里有。然后在程序里就可以用正则表达式,根据cid附近的字符串特征,将cid查找出来。接着爬取弹幕文件,同样用正则提取出弹幕内容。最后,对弹幕进行分词和统计。

Subscribe
提醒
guest
0 评论
Inline Feedbacks
View all comments