关于数据清洗与去重,Python交流,编程语言专区,鱼C论坛

skyrimz 发表于 2020-11-18 15:04:29

关于数据清洗与去重

爬了一些b站的弹幕，打算做点统计分析。
现在遇到一个问题，就是我打算统计一下出现次数较多的弹幕，想以整条的形式统计。
比如：哈哈哈哈哈哈，哈哈哈，这种无意义的弹幕，怎么能去掉呢？
pandas的drop_duplicate似乎只能去掉完全重复的弹幕？
jieba分词可以实现？

笨鸟学飞 发表于 2020-11-18 17:07:29

自己写个比对函数不就搞定了，这么简单的东西你还纠结用库干什么？
比如
temp = []                #清洗后的弹幕列表
for each in list_dm:    #dm是获取的所有弹幕列表
if not each in rub_list:#rub_list是无意义的弹幕列表，要自定义一下
   temp.append(each)

hrp 发表于 2020-11-18 17:11:08

本帖最后由 hrp 于 2020-11-18 19:13 编辑

简单粗暴法：
写一个判断函数，计算弹幕除标点符号外的字符重复率，再结合弹幕字符数量计算无意义概率(同样的字符重复率，弹幕长的，无意义概率比短弹幕的无意义概率高)，最后函数返回无意义的概率，主函数根据这个函数的结果决定是否剔除弹幕。

roy_lz 发表于 2020-11-18 18:39:19

哈哈怎么就是无意义的弹幕呢，搞笑视频最喜欢的就是哈哈了{:10_269:}

页: [1]

鱼C论坛's Archiver

关于数据清洗与去重