|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
python小练习系列即将接近100期了,我准备在最后的几期里面做几个大一点的项目(估计几百行代码),把之前学习的知识都串起来,也算是作为一个阶段的学习总结。我会详细地把这个项目是如何一步一步实现的,完整得记录下来,方便大家学习。
今天就开始做这样一个项目:豆瓣电影评分系统 -- 程序的目的是让机器学会分析不同电影的评论,然后根据评论,对所评论的电影进行打分(5分制)。
我们先来分析这个项目,首先,要让机器学会分析不同电影的评论,我们就需要先收集不同电影的评论文章,然后对这些评论文章进行评分,作为训练数据。当然,作为训练数据之前,还必须对这些评论进行数据清洗以及词向量转化。然后用搭载tensorflow的keras进行基于神经网络的机器学习。最后,用其他电影评论进行实际测试。
那么,第一步就是先要爬取豆瓣的电影评论。
第一篇:豆瓣电影评论爬虫
我们打开任意一个豆瓣电影的介绍:https://movie.douban.com/subject/25815034/comments?status=P
可以看到每个评论下,用户其实都用星数进行了评分,但是这个评分不是以数值形式显示可以直接抓取的。
那么,我们打开网页源代码查看的时候,发现豆瓣其实是用了js解析的动态网页,这样就不能直接使用requests进行抓取了,而必须通过模拟浏览器+selenium进行爬去,我使用的是phantomjs+splinter(用得比较顺手而已)。
当用模拟浏览器解析js以后就可以发现这个星级的评分在标签中是以“allstar10”~“allstar50”这样的形式表示的,这样我们只要直接抓取这个评分就可以了。
那么先从主板块开始,我按照“动作 喜剧 爱情 科幻 悬疑 恐怖 治愈”这7个分类的电影,每个分类选取20部影片,每部影片选取20条评论+评分。这样理论上就有2800条训练数据可以使用了,应该是足够了。
第一步,我先是把要爬的电影的序号,电影名称以及主版上的电影评分爬下来,爬下来的内容保存为txt文件留着后面使用。
爬下来的数据,基本上是这样的形式:
- 25815034 湄公河行动 8.0
- 26577541 终极斗士4 7.2
- 10727641 疯狂的麦克斯4:狂暴之路 7.7
- 25919910 碟中谍5:神秘国度 8.1
- 6982558 师父 5.0
- 3718279 长城 7.5
- 26266072 死侍 7.3
- 3230115 谍影重重5 5.8
- 23788440 极限特工3:终极回归 7.3
- 3077412 杀破狼2 7.6
- 26309788 寻龙诀 6.8
- 25986180 金刚:骷髅岛 8.2
- 20505982 釜山行 6.9
- 11620560 寒战2 6.2
- 25825412 007:幽灵党 5.6
- 3569910 机械师2:复活 6.1
- 2131940 自杀小队 7.8
- 25662337 魔兽 6.5
- 25823132 惊天魔盗团2 8.0
复制代码
爬主版的爬虫主要是用了phantomjs+splinter+BeautifulSoup,源代码:
|
|