ppp111 发表于 2016-11-30 14:41:58

Python3爬虫实战之抓取淘宝MM照片

本帖最后由 ppp111 于 2016-11-30 16:52 编辑


借鉴了崔庆才的博客:http://cuiqingcai.com/1001.html
爬取目标网站:https://mm.taobao.com/json/request_top_list.htm?page=1,大家打开之后可以看到许多淘宝MM的列表。

http://qiniu.cuiqingcai.com/wp-content/uploads/2016/03/QQ20160326-5@2x.png
列表有多少?
https://mm.taobao.com/json/request_top_list.htm?page=10000,第10000页都有,看你想要多少。我什么也不知道。

由于URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以为可以通过这个页面然后跳转到原来的个性域名,而经过一番折腾发现,这个跳转页中的内容是JS动态生成的{:5_96:}
我就用了 Selenium + PhantomJS 来解析

PhantomJS是一个没有界面的浏览器,而且运行的是 JavaScript 脚本。
Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。

嗯,所以呢?安装一下 Python 的 Selenium 库,再安装好 PhantomJS,不就可以实现 Python+Selenium+PhantomJS 的无缝对接了嘛!PhantomJS 用来渲染解析JS,Selenium 用来驱动以及与 Python 的对接,Python 进行后期的处理,完美的三剑客!{:5_92:}
写的比较low只实现了了抓取MM图片 ,个人简介还不会抓先发个上来热闹热闹   欢迎大家给予我指导
最后上个自己实现的图:

**** Hidden Message *****

python

hank1016 发表于 2016-11-30 15:49:29

Python爬虫实战之抓取淘宝MM照片

太空军校生 发表于 2016-11-30 16:52:15

学习学习

ppp111 发表于 2016-11-30 18:09:57

hank1016 发表于 2016-11-30 15:49
Python爬虫实战之抓取淘宝MM照片

不要重复刷标题

lwy360585027 发表于 2016-12-1 15:54:06

抓取

luoxue 发表于 2016-12-2 15:44:20

期待你的新版本

chenjuanq 发表于 2016-12-3 10:06:44

{:5_91:}

pengjiawang 发表于 2016-12-6 22:22:52

{:5_90:}{:5_90:}{:5_90:}

苏韵锦 发表于 2016-12-9 15:19:12

QQ

xyzeng2016 发表于 2016-12-11 13:22:16

学习下

Jack007wyc 发表于 2016-12-11 17:21:40

学习一下!顺便看妹子

曦曦 发表于 2016-12-11 20:26:38

很强势

huhuban 发表于 2016-12-11 20:35:43

{:10_260:}{:10_260:}{:10_260:}{:10_260:}

wxb19840810 发表于 2016-12-11 21:32:11

我曹,这个厉害。。。。

zxc26886616 发表于 2016-12-15 00:10:13

{:5_99:}

lntuer 发表于 2016-12-15 09:58:55

学习学习

momo_study 发表于 2016-12-15 10:51:55

看看看

wljtojlw 发表于 2016-12-15 11:49:40

新人,学习

坤海 发表于 2016-12-15 16:26:52

新人学习!!!~~

忘忧草123456 发表于 2016-12-15 23:51:10

页: [1] 2 3 4 5 6
查看完整版本: Python3爬虫实战之抓取淘宝MM照片