python小练习（092）：基于keras快速搭建神经网络（实战篇）之豆瓣电影评分系统（一）

jerryxjr1220 · 发表于 2017-4-16 09:33:33

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

python小练习系列即将接近100期了，我准备在最后的几期里面做几个大一点的项目（估计几百行代码），把之前学习的知识都串起来，也算是作为一个阶段的学习总结。我会详细地把这个项目是如何一步一步实现的，完整得记录下来，方便大家学习。

今天就开始做这样一个项目：豆瓣电影评分系统 -- 程序的目的是让机器学会分析不同电影的评论，然后根据评论，对所评论的电影进行打分（5分制）。

我们先来分析这个项目，首先，要让机器学会分析不同电影的评论，我们就需要先收集不同电影的评论文章，然后对这些评论文章进行评分，作为训练数据。当然，作为训练数据之前，还必须对这些评论进行数据清洗以及词向量转化。然后用搭载tensorflow的keras进行基于神经网络的机器学习。最后，用其他电影评论进行实际测试。

那么，第一步就是先要爬取豆瓣的电影评论。

第一篇：豆瓣电影评论爬虫
我们打开任意一个豆瓣电影的介绍：https://movie.douban.com/subject/25815034/comments?status=P
可以看到每个评论下，用户其实都用星数进行了评分，但是这个评分不是以数值形式显示可以直接抓取的。

那么，我们打开网页源代码查看的时候，发现豆瓣其实是用了js解析的动态网页，这样就不能直接使用requests进行抓取了，而必须通过模拟浏览器+selenium进行爬去，我使用的是phantomjs+splinter（用得比较顺手而已）。

当用模拟浏览器解析js以后就可以发现这个星级的评分在标签中是以“allstar10”～“allstar50”这样的形式表示的，这样我们只要直接抓取这个评分就可以了。

那么先从主板块开始，我按照“动作喜剧爱情科幻悬疑恐怖治愈”这7个分类的电影，每个分类选取20部影片，每部影片选取20条评论+评分。这样理论上就有2800条训练数据可以使用了，应该是足够了。

第一步，我先是把要爬的电影的序号，电影名称以及主版上的电影评分爬下来，爬下来的内容保存为txt文件留着后面使用。

爬下来的数据，基本上是这样的形式：

25815034 湄公河行动 8.0
26577541 终极斗士4 7.2
10727641 疯狂的麦克斯4：狂暴之路 7.7
25919910 碟中谍5：神秘国度 8.1
6982558 师父 5.0
3718279 长城 7.5
26266072 死侍 7.3
3230115 谍影重重5 5.8
23788440 极限特工3：终极回归 7.3
3077412 杀破狼2 7.6
26309788 寻龙诀 6.8
25986180 金刚：骷髅岛 8.2
20505982 釜山行 6.9
11620560 寒战2 6.2
25825412 007：幽灵党 5.6
3569910 机械师2：复活 6.1
2131940 自杀小队 7.8
25662337 魔兽 6.5
25823132 惊天魔盗团2 8.0

复制代码

爬主版的爬虫主要是用了phantomjs+splinter+BeautifulSoup，源代码：

游客，如果您要查看本帖隐藏内容请回复

新手·ing · 发表于 2017-4-16 10:01:21

支持！

DDBarry · 发表于 2017-4-18 00:43:41

豆瓣影评系统

tyzam · 发表于 2017-4-20 10:59:04

赞啊，好例子。

gopythoner · 发表于 2017-4-20 11:10:32

学习一下

gopythoner · 发表于 2017-4-20 11:19:06

本帖最后由 gopythoner 于 2017-4-20 11:21 编辑

思路很清晰，不过我有个小问题
我认为在这2句之间应该增加一个sleep()等待时间，因为动态网页你不等待直接提取网页到BS中的话，可能网页还没有加载完全，你要的信息还没有加载出来你就提取了网页，这样信息根本不全
x.visit(url)
bs = BS(x.html, 'lxml')
还有你在提取了信息之后等待10秒，那个地方我感觉没必要吧，这个等待时间好像没意义啊，因为你一个网页的信息已经提取完了，直接开始下一个就行，为什么要等待呢？
我一般使用selenium，所以是从selenium的使用来理解的，不知道是不是你用的这个跟selenium不一样

jerryxjr1220 · 发表于 2017-4-20 17:12:07

gopythoner 发表于 2017-4-20 11:19
思路很清晰，不过我有个小问题
我认为在这2句之间应该增加一个sleep()等待时间，因为动态网页你不等待直接 ...

嗯，你说的是正确的。
其实这里设置延时的参数，我是根据不同的地方而调整的。比如我在家里网速很快就几乎不用延时，但是在公司由于服务器在美国，访问国内就很慢。
另外一个延时10秒的是我做测试时候用的，可能贴上来的时候没有注释掉。

没有土豆的洋芋 · 发表于 2017-4-21 10:00:36

stone1 · 发表于 2017-5-19 07:46:36

谢谢分享

z215229525 · 发表于 2017-5-21 22:40:20

厉害

z514624485 · 发表于 2017-5-22 22:21:56

啊啊啊啊啊啊啊啊

经风历雨 · 发表于 2017-6-13 11:05:09

学习

Py小学生 · 发表于 2017-6-26 10:52:26

yyf900524 · 发表于 2017-12-12 10:13:02

学习了

junlei007 · 发表于 2018-3-27 16:49:28

5555555555555

daoyuantech · 发表于 2018-5-29 15:48:48

呵呵，学习学习

wandyking · 发表于 2018-7-18 22:39:40

特意过来学习python，同时学习神经网络，最近要用到

zhou995287902 · 发表于 2018-7-25 19:45:58

学习

小样-xiaoyang · 发表于 2018-7-25 20:38:18

得到

3062604529 · 发表于 2018-7-26 14:48:14

学习一下

账号		自动登录	找回密码
密码			立即注册

[技术交流] python小练习（092）：基于keras快速搭建神经网络（实战篇）之豆瓣电影评分系统（一）

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

浏览过的版块