鱼C论坛

 找回密码
 立即注册
查看: 1866|回复: 3

[已解决]关于数据清洗与去重

[复制链接]
发表于 2020-11-18 15:04:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
爬了一些b站的弹幕,打算做点统计分析。
现在遇到一个问题,就是我打算统计一下出现次数较多的弹幕,想以整条的形式统计。
比如:哈哈哈哈哈哈,哈哈哈,这种无意义的弹幕,怎么能去掉呢?
pandas的drop_duplicate似乎只能去掉完全重复的弹幕?
jieba分词可以实现?
最佳答案
2020-11-18 17:11:08
本帖最后由 hrp 于 2020-11-18 19:13 编辑

简单粗暴法:
写一个判断函数,计算弹幕除标点符号外的字符重复率,再结合弹幕字符数量计算无意义概率(同样的字符重复率,弹幕长的,无意义概率比短弹幕的无意义概率高),最后函数返回无意义的概率,主函数根据这个函数的结果决定是否剔除弹幕。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-18 17:07:29 | 显示全部楼层
自己写个比对函数不就搞定了,这么简单的东西你还纠结用库干什么?
比如
temp = []                   #清洗后的弹幕列表
for each in list_dm:       #dm是获取的所有弹幕列表
    if not each in rub_list:  #rub_list是无意义的弹幕列表,要自定义一下
        temp.append(each)   
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-18 17:11:08 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
本帖最后由 hrp 于 2020-11-18 19:13 编辑

简单粗暴法:
写一个判断函数,计算弹幕除标点符号外的字符重复率,再结合弹幕字符数量计算无意义概率(同样的字符重复率,弹幕长的,无意义概率比短弹幕的无意义概率高),最后函数返回无意义的概率,主函数根据这个函数的结果决定是否剔除弹幕。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-18 18:39:19 | 显示全部楼层
哈哈怎么就是无意义的弹幕呢,搞笑视频最喜欢的就是哈哈了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-17 21:58

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表