jerryxjr1220 发表于 2017-4-16 13:37:59

python小练习(093):基于keras快速搭建神经网络(实战篇)之豆瓣电影评分系统(二)

接上一篇,爬完豆瓣电影的主版之后,我们就拿到了电影名称以及相应的编号。

打开任意一个电影评论页面,可以看到url都是固定的格式
'https://movie.douban.com/subject/ <编号> /comments?status=P'
只要替换不同的编号,就能获取相应的电影的评论。

但是很不幸,评论板块依然是js的动态网页,无法用requests直接爬取,仍然只能依靠phantomjs+splinter+BeautifulSoup

爬下的评论对应评分,储存在comments中,然后用pickle保存,方便以后调用。

总共大约2000多条评论和评分(有些评论爬取遇到错误就舍弃了)。 如果评论数再多可以考虑用数据库储存。

至此,所有爬虫的工作就结束了。

源代码:
**** Hidden Message *****

jerryxjr1220 发表于 2017-4-16 13:43:33

对于爬取的电影评论,需要进行数据清洗,过滤,构建词汇表,词向量转化,然后导入基于tensorflow的keras系统进行机器学习,最后验证预测结果。
这些就是后面几篇小练习要分享的内容。

新手·ing 发表于 2017-4-16 13:48:03

{:10_245:}{:10_245:}{:10_245:}

jerryxjr1220 发表于 2017-4-16 13:56:21

其实,创建神经网络是很枯燥的过程,尤其是需要自己去搜集训练数据和标签的时候。
但是当系统创建好并能正确运行的时候,就可以实现一些强大的功能。
之后,看看是否有时间可以做一套股市趋势预测系统,原理其实类似,只要搜集一批股评家的趋势分析报告让机器自动学习,然后根据实际的趋势变化进行调整。

tyzam 发表于 2017-4-20 11:02:04

跟进学习

没有土豆的洋芋 发表于 2017-4-21 09:58:46

binggou

Py小学生 发表于 2017-6-26 10:53:24

go

macmac 发表于 2017-9-11 13:20:33

学习下看看数据格式

yyf900524 发表于 2017-12-12 10:19:02

厉害了

wandyking 发表于 2018-7-18 22:40:30

特意过来学习python, 同时学习神经网络, 最近要用到

zhou995287902 发表于 2018-7-25 19:38:51

学习

forever1qazz 发表于 2018-12-24 15:22:29

666

henry2018 发表于 2018-12-24 17:49:03

我来了!!!!

云中客6 发表于 2018-12-30 22:39:55

666

oxrl 发表于 2019-3-2 22:02:22

谢谢

morton 发表于 2019-3-12 17:27:36

thanks

沉迷include 发表于 2019-3-28 06:16:44

execjs找到js文件来跑就好了,不用selenium

USTB 发表于 2019-4-10 18:27:39

谢谢楼主分享

qaz123765 发表于 2019-7-15 23:43:10

看看

yfffff 发表于 2020-5-26 23:14:03

yes
页: [1] 2
查看完整版本: python小练习(093):基于keras快速搭建神经网络(实战篇)之豆瓣电影评分系统(二)