skyrimz 发表于 2020-11-18 15:04:29

关于数据清洗与去重

爬了一些b站的弹幕,打算做点统计分析。
现在遇到一个问题,就是我打算统计一下出现次数较多的弹幕,想以整条的形式统计。
比如:哈哈哈哈哈哈,哈哈哈,这种无意义的弹幕,怎么能去掉呢?
pandas的drop_duplicate似乎只能去掉完全重复的弹幕?
jieba分词可以实现?

笨鸟学飞 发表于 2020-11-18 17:07:29

自己写个比对函数不就搞定了,这么简单的东西你还纠结用库干什么?
比如
temp = []                   #清洗后的弹幕列表
for each in list_dm:       #dm是获取的所有弹幕列表
    if not each in rub_list:#rub_list是无意义的弹幕列表,要自定义一下
      temp.append(each)   

hrp 发表于 2020-11-18 17:11:08

本帖最后由 hrp 于 2020-11-18 19:13 编辑

简单粗暴法:
写一个判断函数,计算弹幕除标点符号外的字符重复率,再结合弹幕字符数量计算无意义概率(同样的字符重复率,弹幕长的,无意义概率比短弹幕的无意义概率高),最后函数返回无意义的概率,主函数根据这个函数的结果决定是否剔除弹幕。

roy_lz 发表于 2020-11-18 18:39:19

哈哈怎么就是无意义的弹幕呢,搞笑视频最喜欢的就是哈哈了{:10_269:}
页: [1]
查看完整版本: 关于数据清洗与去重