python小练习（093）：基于keras快速搭建神经网络（实战篇）之豆瓣电影评分系统（二）,Python交流,编程语言专区,鱼C论坛

jerryxjr1220 发表于 2017-4-16 13:37:59

python小练习（093）：基于keras快速搭建神经网络（实战篇）之豆瓣电影评分系统（二）

接上一篇，爬完豆瓣电影的主版之后，我们就拿到了电影名称以及相应的编号。

打开任意一个电影评论页面，可以看到url都是固定的格式
'https://movie.douban.com/subject/ <编号> /comments?status=P'
只要替换不同的编号，就能获取相应的电影的评论。

但是很不幸，评论板块依然是js的动态网页，无法用requests直接爬取，仍然只能依靠phantomjs+splinter+BeautifulSoup

爬下的评论对应评分，储存在comments中，然后用pickle保存，方便以后调用。

总共大约2000多条评论和评分（有些评论爬取遇到错误就舍弃了）。如果评论数再多可以考虑用数据库储存。

至此，所有爬虫的工作就结束了。

源代码：
**** Hidden Message *****

jerryxjr1220 发表于 2017-4-16 13:43:33

对于爬取的电影评论，需要进行数据清洗，过滤，构建词汇表，词向量转化，然后导入基于tensorflow的keras系统进行机器学习，最后验证预测结果。
这些就是后面几篇小练习要分享的内容。

新手·ing 发表于 2017-4-16 13:48:03

{:10_245:}{:10_245:}{:10_245:}

jerryxjr1220 发表于 2017-4-16 13:56:21

其实，创建神经网络是很枯燥的过程，尤其是需要自己去搜集训练数据和标签的时候。
但是当系统创建好并能正确运行的时候，就可以实现一些强大的功能。
之后，看看是否有时间可以做一套股市趋势预测系统，原理其实类似，只要搜集一批股评家的趋势分析报告让机器自动学习，然后根据实际的趋势变化进行调整。

tyzam 发表于 2017-4-20 11:02:04

跟进学习

没有土豆的洋芋 发表于 2017-4-21 09:58:46

binggou

Py小学生 发表于 2017-6-26 10:53:24

macmac 发表于 2017-9-11 13:20:33

学习下看看数据格式

yyf900524 发表于 2017-12-12 10:19:02

厉害了

wandyking 发表于 2018-7-18 22:40:30

特意过来学习python，同时学习神经网络，最近要用到

zhou995287902 发表于 2018-7-25 19:38:51

学习

forever1qazz 发表于 2018-12-24 15:22:29

666

henry2018 发表于 2018-12-24 17:49:03

我来了！！！！

云中客6 发表于 2018-12-30 22:39:55

666

oxrl 发表于 2019-3-2 22:02:22

谢谢

morton 发表于 2019-3-12 17:27:36

thanks

沉迷include 发表于 2019-3-28 06:16:44

execjs找到js文件来跑就好了，不用selenium

USTB 发表于 2019-4-10 18:27:39

谢谢楼主分享

qaz123765 发表于 2019-7-15 23:43:10

看看

yfffff 发表于 2020-5-26 23:14:03

yes

页: [1] 2

鱼C论坛's Archiver

python小练习（093）：基于keras快速搭建神经网络（实战篇）之豆瓣电影评分系统（二）