Python3爬虫实战之抓取淘宝MM照片,Python交流,编程语言专区,鱼C论坛

ppp111 发表于 2016-11-30 14:41:58

Python3爬虫实战之抓取淘宝MM照片

本帖最后由 ppp111 于 2016-11-30 16:52 编辑

借鉴了崔庆才的博客：http://cuiqingcai.com/1001.html
爬取目标网站：https://mm.taobao.com/json/request_top_list.htm?page=1，大家打开之后可以看到许多淘宝MM的列表。

http://qiniu.cuiqingcai.com/wp-content/uploads/2016/03/QQ20160326-5@2x.png
列表有多少？
https://mm.taobao.com/json/request_top_list.htm?page=10000，第10000页都有，看你想要多少。我什么也不知道。

由于URL的索引已经和之前的不一样了，之前可以直接跳转到每个MM的个性域名，现在中间加了一个跳转页，本以为可以通过这个页面然后跳转到原来的个性域名，而经过一番折腾发现，这个跳转页中的内容是JS动态生成的{:5_96:}
我就用了 Selenium + PhantomJS 来解析

PhantomJS是一个没有界面的浏览器，而且运行的是 JavaScript 脚本。
Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium 的插件，那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。

嗯，所以呢？安装一下 Python 的 Selenium 库，再安装好 PhantomJS，不就可以实现 Python＋Selenium＋PhantomJS 的无缝对接了嘛！PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与 Python 的对接，Python 进行后期的处理，完美的三剑客！{:5_92:}
写的比较low只实现了了抓取MM图片，个人简介还不会抓先发个上来热闹热闹欢迎大家给予我指导
最后上个自己实现的图：

**** Hidden Message *****

python

hank1016 发表于 2016-11-30 15:49:29

Python爬虫实战之抓取淘宝MM照片

太空军校生 发表于 2016-11-30 16:52:15

学习学习

ppp111 发表于 2016-11-30 18:09:57

hank1016 发表于 2016-11-30 15:49
Python爬虫实战之抓取淘宝MM照片

不要重复刷标题

lwy360585027 发表于 2016-12-1 15:54:06

抓取

luoxue 发表于 2016-12-2 15:44:20

期待你的新版本

chenjuanq 发表于 2016-12-3 10:06:44

{:5_91:}

pengjiawang 发表于 2016-12-6 22:22:52

{:5_90:}{:5_90:}{:5_90:}

苏韵锦 发表于 2016-12-9 15:19:12

xyzeng2016 发表于 2016-12-11 13:22:16

学习下

Jack007wyc 发表于 2016-12-11 17:21:40

学习一下！顺便看妹子

曦曦发表于 2016-12-11 20:26:38

很强势

huhuban 发表于 2016-12-11 20:35:43

{:10_260:}{:10_260:}{:10_260:}{:10_260:}

wxb19840810 发表于 2016-12-11 21:32:11

我曹，这个厉害。。。。

zxc26886616 发表于 2016-12-15 00:10:13

{:5_99:}

lntuer 发表于 2016-12-15 09:58:55

学习学习

momo_study 发表于 2016-12-15 10:51:55

看看看

wljtojlw 发表于 2016-12-15 11:49:40

新人，学习

坤海发表于 2016-12-15 16:26:52

新人学习！！！~~

忘忧草123456 发表于 2016-12-15 23:51:10

页: [1] 2 3 4 5 6

鱼C论坛's Archiver

Python3爬虫实战之抓取淘宝MM照片