【python爬虫应用】爬京东上的小米5的2600多条差评数据之词频分析

imwaco · 发表于 2017-6-5 15:25:56

哪个库做的词频分析呢？

fundy · 发表于 2017-6-5 16:11:27

看看大神的杰作

lalalabu · 发表于 2017-6-5 20:54:24

# -*- coding: cp936 -*-

因为返回的不是中文
改了一下，加一个import json
#! /usr/bin/env python
# encoding:utf-8

import json

import codecs as cs
import jieba as jb                      #jieba是python上非常不错的中文分词插件，有多种模式可以选择
f = cs.open("bad.txt","r")
lines = f.readlines()
f.close()
data = []
dic ={}
for each in lines:
      bad = jb.cut_for_search(each)
      data.append(bad)

for eachline in data:
      for eachword in eachline:
            if eachword in dic:
                     dic[eachword] += 1
            else:
                     dic[eachword] = 1
sorteddic = sorted(dic.items(),key=lambda x:x[1],reverse=True)
for i in range(200):                      #显示了前100项，但是很多都是无用的助词或者标点符号，我在excel里手动删了，还是很方便的。

print json.dumps(sorteddic[i],encoding='UTF-8',ensure_ascii=False)

Puff · 发表于 2017-6-8 17:54:00

正好在做相关的分析，过来参考下

leoleom · 发表于 2017-6-8 18:13:54

顶顶顶顶

花寺情僧 · 发表于 2017-6-9 18:38:18

学习一下

cvn · 发表于 2017-6-10 19:13:57

看看

军不败 · 发表于 2017-6-10 23:07:16

犀利 1024

xtg1148 · 发表于 2017-7-2 11:39:38

1111111111

djangson · 发表于 2017-7-27 17:06:13

看看看看那看看卡

曾经子曰 · 发表于 2017-9-13 15:01:12

看看如何分析词频

hefu77 · 发表于 2017-9-13 22:09:34

哈哈哈

zqm176 · 发表于 2017-9-13 23:15:54

阳pipi · 发表于 2017-9-14 07:24:29

chvanhui · 发表于 2017-9-26 16:44:07

参观学习一下

文明的读书人 · 发表于 2017-9-26 17:16:47

白色球鞋 · 发表于 2017-9-26 21:33:39

膜拜

Danndee · 发表于 2017-10-2 21:54:51

瞄一下，

fily029 · 发表于 2017-10-3 23:18:34

看看代码

Dout · 发表于 2017-10-4 10:55:25

学习学习

账号		自动登录	找回密码
密码			立即注册

[作品展示] 【python爬虫应用】爬京东上的小米5的2600多条差评数据之词频分析

浏览过的版块