鱼C论坛

 找回密码
 立即注册
查看: 4812|回复: 61

[技术交流] 正确展示用代码吃王力宏的瓜

[复制链接]
发表于 2021-12-18 16:03:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 不二如是 于 2021-12-20 18:06 编辑

在线视频:



unnamed.gif

年底的瓜有点猛吖,吃不过来了,上代码帮忙!

我们先找到微博源头出处:(传送门

2021-12-18_15-50-47.jpg

文中透漏的完全是一副好聚好散,岁月静好的气氛,好像用词有点不当了,不过也不纠结这些了。

这个评论量,哪里看的完,不数据分析一下,可能会漏掉一些精彩地方~

实现原理其实和小师妹之前做电影分析的教程一毛一样,来不急讲了,不会的自己去看~



迫不及待撸起代码了:
# 爬取一页评论内容
def get_one_page(url):
    headers = {
        'User-agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3880.4 Safari/537.36',
        'Host' : 'weibo.cn',
        'Accept' : 'application/json, text/plain, */*',
        'Accept-Language' : 'zh-CN,zh;q=0.9',
        'Accept-Encoding' : 'gzip, deflate, br',
        'Cookie' : '自己的Cookie',
        'DNT' : '1',
        'Connection' : 'keep-alive'
    }
    # 获取网页 html
    response = requests.get(url, headers = headers, verify=False)
    # 爬取成功
    if response.status_code == 200:
        # 返回值为 html 文档,传入到解析函数当中
        return response.text
    return None
记住 get_one_page(url) 中,Cookie 要换成你们自己的!

数据有了,来看下前十的词汇有哪些,主要代码实现如下:
stop_words = []
with open('stop_words.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        stop_words.append(line.strip())
content = open('comments.txt', 'rb').read()
# jieba 分词
word_list = jieba.cut(content)
words = []
for word in word_list:
    if word not in stop_words:
        words.append(word)

wordcount = {}
for word in words:
    if word != ' ':
        wordcount[word] = wordcount.get(word, 0)+1
wordtop = sorted(wordcount.items(), key=lambda x: x[1], reverse=True)[:10]
wx = []
wy = []
for w in wordtop:
    wx.append(w[0])
    wy.append(w[1])

(
2021-12-18_15-56-41.jpg

再来生成个词云,看看:

游客,如果您要查看本帖隐藏内容请回复


不做评论,让数据自己说话,这个瓜,好吃吗?

源码: FihsC-ChiGua.zip (5.09 KB, 下载次数: 46, 售价: 8 鱼币)

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
鱼C-小师妹 + 5 + 5 + 3 鱼C有你更精彩^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-12-18 16:08:09 From FishC Mobile | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 16:11:01 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 17:45:47 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 17:46:06 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 18:20:00 | 显示全部楼层
抱树吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 18:22:03 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 18:31:28 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 18:38:19 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 19:07:02 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 19:15:45 | 显示全部楼层
请教下,代码里用来统计词语出现频率,生成词条,生成云图都是用到了什么函数或者库?
能否告诉我下用到的函数名字,或者库名?

这块的知识还没学到,想了解,学习下。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 19:39:38 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 19:47:45 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 20:16:15 | 显示全部楼层
这瓜熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 20:32:31 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 20:35:25 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-18 21:32:53 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-19 00:04:45 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-19 00:15:16 | 显示全部楼层
这瓜保熟
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-19 00:16:43 | 显示全部楼层
非凡 发表于 2021-12-18 19:15
请教下,代码里用来统计词语出现频率,生成词条,生成云图都是用到了什么函数或者库?
能否告诉我下用到的 ...

你可以下载源码看头部代码就知道了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 09:58

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表