鱼C论坛

 找回密码
 立即注册
查看: 1157|回复: 4

麻烦帮忙看看机械压缩去词的代码

[复制链接]
发表于 2020-5-28 07:48:27 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 维e 于 2020-5-28 07:49 编辑

我刚刚学着用python做情感分析,跟着一位老师学敲的机械压缩去词的代码,代码没有报错,但也没有成功去掉重复词,搞了半天也没搞懂,请高人帮忙看看,我把前后代码都贴上。分析的数据是从cvs导入的某商品评论内容。

  1. data = pd.DataFrame(data['内容'].unique())

  2. def cutword(strs, reverse=False):
  3.     s1 = []#存一个字符
  4.     s2 = []#存第二个字符
  5.     s = []#存最终结果
  6.     if reverse:
  7.         strs = strs[::-1]
  8.     s1.append(strs[0])
  9.     for i in strs[1:]:
  10.         if i ==s1[0]:
  11.             if len(s2)==0:
  12.                 s2.append(i)
  13.             else:
  14.                 if s1 == s2:
  15.                     s2 = []
  16.                     s2.append(i)
  17.                 else:
  18.                     s = s+s1+s2
  19.                     s1 = []
  20.                     s2 = []
  21.                     s1.append(i)
  22.         else:
  23.             if s1 == s2 and len(s1)>=2 and len(s2)>=2:
  24.                 s = s + s1
  25.                 s1 = []
  26.                 s2 = []
  27.                 s1.append(i)
  28.             else:
  29.                 if len(s2)==0:
  30.                     s1.append(i)
  31.                 else:
  32.                     s2.append(i)
  33.     if s1 == s2:
  34.         s = s + s1
  35.     else:
  36.         s = s + s1 + s2
  37.     if reverse :
  38.         return ''.join(s[::-1])
  39.     else:
  40.         return ''.join(s)

  41. #机械压缩去词
  42. #用aplly免用for循环
  43. data2 = data.iloc[:,0].apply(cutword)
  44. data2 = data2.apply(cutword, reverse = True)

  45. print('机械压缩去词后:')
  46. print(len(data2))
  47. print(type(data2))
  48. print('---------------')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-5-28 09:02:49 | 显示全部楼层
给几行数据内容测试下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-28 19:34:51 | 显示全部楼层
Twilight6 发表于 2020-5-28 09:02
给几行数据内容测试下

测试过了,就是输入什么数据,输出的还是什么数据,不能实现去重的效果
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-28 19:37:44 | 显示全部楼层
维e 发表于 2020-5-28 19:34
测试过了,就是输入什么数据,输出的还是什么数据,不能实现去重的效果

我意思是 你给几行数据 ....
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-28 19:47:05 | 显示全部楼层
Twilight6 发表于 2020-5-28 19:37
我意思是 你给几行数据 ....

我发了一个链接我的原始数据,在审核中。就是随便设个字符串比如“12213456656667”这种,输出的时候还是这一串,
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-20 17:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表