python小练习(093):基于keras快速搭建神经网络(实战篇)之豆瓣电影评分系统(二)
接上一篇,爬完豆瓣电影的主版之后,我们就拿到了电影名称以及相应的编号。打开任意一个电影评论页面,可以看到url都是固定的格式
'https://movie.douban.com/subject/ <编号> /comments?status=P'
只要替换不同的编号,就能获取相应的电影的评论。
但是很不幸,评论板块依然是js的动态网页,无法用requests直接爬取,仍然只能依靠phantomjs+splinter+BeautifulSoup
爬下的评论对应评分,储存在comments中,然后用pickle保存,方便以后调用。
总共大约2000多条评论和评分(有些评论爬取遇到错误就舍弃了)。 如果评论数再多可以考虑用数据库储存。
至此,所有爬虫的工作就结束了。
源代码:
**** Hidden Message ***** 对于爬取的电影评论,需要进行数据清洗,过滤,构建词汇表,词向量转化,然后导入基于tensorflow的keras系统进行机器学习,最后验证预测结果。
这些就是后面几篇小练习要分享的内容。 {:10_245:}{:10_245:}{:10_245:} 其实,创建神经网络是很枯燥的过程,尤其是需要自己去搜集训练数据和标签的时候。
但是当系统创建好并能正确运行的时候,就可以实现一些强大的功能。
之后,看看是否有时间可以做一套股市趋势预测系统,原理其实类似,只要搜集一批股评家的趋势分析报告让机器自动学习,然后根据实际的趋势变化进行调整。 跟进学习 binggou
go 学习下看看数据格式 厉害了 特意过来学习python, 同时学习神经网络, 最近要用到 学习 666 我来了!!!! 666 谢谢 thanks execjs找到js文件来跑就好了,不用selenium 谢谢楼主分享 看看 yes
页:
[1]
2