关于数据清洗与去重
爬了一些b站的弹幕,打算做点统计分析。现在遇到一个问题,就是我打算统计一下出现次数较多的弹幕,想以整条的形式统计。
比如:哈哈哈哈哈哈,哈哈哈,这种无意义的弹幕,怎么能去掉呢?
pandas的drop_duplicate似乎只能去掉完全重复的弹幕?
jieba分词可以实现? 自己写个比对函数不就搞定了,这么简单的东西你还纠结用库干什么?
比如
temp = [] #清洗后的弹幕列表
for each in list_dm: #dm是获取的所有弹幕列表
if not each in rub_list:#rub_list是无意义的弹幕列表,要自定义一下
temp.append(each) 本帖最后由 hrp 于 2020-11-18 19:13 编辑
简单粗暴法:
写一个判断函数,计算弹幕除标点符号外的字符重复率,再结合弹幕字符数量计算无意义概率(同样的字符重复率,弹幕长的,无意义概率比短弹幕的无意义概率高),最后函数返回无意义的概率,主函数根据这个函数的结果决定是否剔除弹幕。 哈哈怎么就是无意义的弹幕呢,搞笑视频最喜欢的就是哈哈了{:10_269:}
页:
[1]