admintest166 发表于 2020-3-13 11:00:17

【第三版】pyspider爬取妹子图

本帖最后由 admintest166 于 2020-3-15 22:06 编辑

昨天就想弄了 无奈前天爬的太多 被封IP了 今天才解封

然后看见午时一到 开始爬了 直接动手

但是发现妹子图这个网站 相比于其他的带颜色的网站 有一定反爬机制

必须要写一个请求头 请求头中只需要一个参数 Referer 如果不加这个拿到的图片会指向一个固定的地址图片

还是老样子 pyspider 跟前面几个发帖的套路都是一样 只是加了请求头而已

补充:如果放在linux服务器下 爬取的速度比windows要快 实测

有些同学可能需要深入理解每个代码的执行的原理 可以看看这个视频 https://www.bilibili.com/video/av89243760?from=search&seid=13149213400677868022

当时爬的时候 借鉴了一下这个视频(活雷锋{:10_254:} )

**** Hidden Message *****

Debugme 发表于 2020-3-13 11:04:33

学术交流{:5_91:}

腾格里的眼睛 发表于 2020-3-13 16:04:35

学习学习

变成小爬虫 发表于 2020-3-13 16:30:06

感谢大神学学

自然的知道12 发表于 2020-3-13 17:01:53

xuexi

Python375 发表于 2020-3-14 00:25:16

{:5_103:}

xiaodaidai1998 发表于 2020-3-14 00:57:08

学东西

Python375 发表于 2020-3-14 17:11:09

FutureWarning: timeout is not supported on your platform,这个是版本问题吗

zlc‘ 发表于 2020-3-14 19:33:32

学习学习

禅境通幽 发表于 2020-3-14 20:57:16

这个网址加个延时好像就可以了 1秒都可以的样子

emor 发表于 2020-3-14 21:23:40

厉害

Qiummmmmml 发表于 2020-3-14 21:49:48

学习

pippo920 发表于 2020-3-14 21:55:27

最喜欢这种

admintest166 发表于 2020-3-14 22:54:32

Python375 发表于 2020-3-14 17:11
FutureWarning: timeout is not supported on your platform,这个是版本问题吗

https://fishc.com.cn/forum.php?mod=viewthread&tid=145228&highlight=pyspider

admintest166 发表于 2020-3-14 22:55:28

禅境通幽 发表于 2020-3-14 20:57
这个网址加个延时好像就可以了 1秒都可以的样子

没用的 我弄过 是被封IP 我整个局域网所有设备全部不能访问
换了一个IP就可以了

13319668782 发表于 2020-3-14 23:50:36

汲取知识

877514595 发表于 2020-3-15 00:02:18

看看看看

zSoy 发表于 2020-3-15 00:04:15

学习了

fly3412 发表于 2020-3-15 00:06:56

加延时参数会有用么?

fly3412 发表于 2020-3-15 00:07:55

楼主有源码么?
好人一生平安!
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 【第三版】pyspider爬取妹子图