Python3爬虫实战之抓取淘宝MM照片
本帖最后由 ppp111 于 2016-11-30 16:52 编辑借鉴了崔庆才的博客:http://cuiqingcai.com/1001.html
爬取目标网站:https://mm.taobao.com/json/request_top_list.htm?page=1,大家打开之后可以看到许多淘宝MM的列表。
http://qiniu.cuiqingcai.com/wp-content/uploads/2016/03/QQ20160326-5@2x.png
列表有多少?
https://mm.taobao.com/json/request_top_list.htm?page=10000,第10000页都有,看你想要多少。我什么也不知道。
由于URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是JS动态生成的{:5_96:}
我就用了 Selenium + PhantomJS 来解析
PhantomJS是一个没有界面的浏览器,而且运行的是 JavaScript 脚本。
Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。
嗯,所以呢?安装一下 Python 的 Selenium 库,再安装好 PhantomJS,不就可以实现 Python+Selenium+PhantomJS 的无缝对接了嘛!PhantomJS 用来渲染解析JS,Selenium 用来驱动以及与 Python 的对接,Python 进行后期的处理,完美的三剑客!{:5_92:}
写的比较low只实现了了抓取MM图片 ,个人简介还不会抓先发个上来热闹热闹 欢迎大家给予我指导
最后上个自己实现的图:
**** Hidden Message *****
python Python爬虫实战之抓取淘宝MM照片 学习学习 hank1016 发表于 2016-11-30 15:49
Python爬虫实战之抓取淘宝MM照片
不要重复刷标题 抓取 期待你的新版本 {:5_91:} {:5_90:}{:5_90:}{:5_90:} QQ 学习下 学习一下!顺便看妹子 很强势 {:10_260:}{:10_260:}{:10_260:}{:10_260:} 我曹,这个厉害。。。。 {:5_99:} 学习学习 看看看 新人,学习 新人学习!!!~~