正确展示用代码吃王力宏的瓜

不二如是 · 发表于 2021-12-18 16:03:25

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由不二如是于 2021-12-20 18:06 编辑

在线视频：

年底的瓜有点猛吖，吃不过来了，上代码帮忙！

我们先找到微博源头出处：（传送门）

文中透漏的完全是一副好聚好散，岁月静好的气氛，好像用词有点不当了，不过也不纠结这些了。

这个评论量，哪里看的完，不数据分析一下，可能会漏掉一些精彩地方～

实现原理其实和小师妹之前做电影分析的教程一毛一样，来不急讲了，不会的自己去看～

迫不及待撸起代码了：

# 爬取一页评论内容
def get_one_page(url):
headers = {
'User-agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3880.4 Safari/537.36',
'Host' : 'weibo.cn',
'Accept' : 'application/json, text/plain, */*',
'Accept-Language' : 'zh-CN,zh;q=0.9',
'Accept-Encoding' : 'gzip, deflate, br',
'Cookie' : '自己的Cookie',
'DNT' : '1',
'Connection' : 'keep-alive'
}
# 获取网页 html
response = requests.get(url, headers = headers, verify=False)
# 爬取成功
if response.status_code == 200:
# 返回值为 html 文档，传入到解析函数当中
return response.text
return None

复制代码

记住 get_one_page(url) 中，Cookie 要换成你们自己的！

数据有了，来看下前十的词汇有哪些，主要代码实现如下：

复制代码

再来生成个词云，看看：

游客，如果您要查看本帖隐藏内容请回复

不做评论，让数据自己说话，这个瓜，好吃吗？

源码：

FihsC-ChiGua.zip (5.09 KB, 下载次数: 46, 售价: 8 鱼币)

hrpzcf · 发表于 2021-12-18 16:08:09

这瓜保熟

柿子饼同学 · 发表于 2021-12-18 16:11:01

这瓜保熟

小甲鱼的二师兄 · 发表于 2021-12-18 17:45:47

这瓜保熟

小甲鱼 · 发表于 2021-12-18 17:46:06

这瓜保熟

热水哥 · 发表于 2021-12-18 18:20:00

抱树吗

xhblxw · 发表于 2021-12-18 18:22:03

这瓜保熟

wangshushuo · 发表于 2021-12-18 18:31:28

这瓜保熟

嘉岳呀 · 发表于 2021-12-18 18:38:19

这瓜保熟

add的 · 发表于 2021-12-18 19:07:02

这瓜保熟

非凡 · 发表于 2021-12-18 19:15:45

请教下，代码里用来统计词语出现频率，生成词条，生成云图都是用到了什么函数或者库？
能否告诉我下用到的函数名字，或者库名？

这块的知识还没学到，想了解，学习下。

划句顾 · 发表于 2021-12-18 19:39:38

这瓜保熟

fish小鱼很香 · 发表于 2021-12-18 19:47:45

这瓜保熟

梦想天空 · 发表于 2021-12-18 20:16:15

这瓜熟

RICH_NI · 发表于 2021-12-18 20:32:31

这瓜保熟

1molHF · 发表于 2021-12-18 20:35:25

这瓜保熟

三刀流.索隆 · 发表于 2021-12-18 21:32:53

这瓜保熟

Kro · 发表于 2021-12-19 00:04:45

这瓜保熟

小伤口 · 发表于 2021-12-19 00:15:16

这瓜保熟

小伤口 · 发表于 2021-12-19 00:16:43

非凡发表于 2021-12-18 19:15
请教下，代码里用来统计词语出现频率，生成词条，生成云图都是用到了什么函数或者库？
能否告诉我下用到的 ...

你可以下载源码看头部代码就知道了

账号		自动登录	找回密码
密码			立即注册

[技术交流] 正确展示用代码吃王力宏的瓜