Wgq 发表于 2017-3-16 22:07:07

关于爬虫的一个问题

我在京东上练习爬虫,审查元素的Network 有menthod:Post, 也顺利完成这个项目。但是我试着在天猫上爬取某些数据的时候,却只有 GET ,错误显示的是urllib error ,我一样用的是Beautifulsoup 这个库 ,所以我在这里,想问的是,是不是因为某些网站的关系不允许爬虫访问或是说爬虫需要某些条件才能满足?

sunnychou 发表于 2017-3-17 10:40:25

有的网站对于爬取的内容有限制,你可以看一下Robots协议,对网站的一下限制,京东的协议,希望对你有用,我也是小白User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

gopythoner 发表于 2017-3-27 16:03:52

天猫我都爬过,各种信息都能爬,但是反爬很厉害
第一,先确认你的返回信息中有没有你要的信息,如果没有,那可能是你的URL找的不对,天猫基本都是在JS中,去那里找吧
第二,如果你能从审查中看到你要的信息,但是你用requests得不到,那就可能是需要传送信息进去了,给你个提示,虽然天猫不用post,但是get里面需要带上cookie的值才能得到信息,至于cookie里面带上什么就要靠自己去研究了,我就不剧透了,这个挺有意思的

Wgq 发表于 2017-3-28 09:52:04

gopythoner 发表于 2017-3-27 16:03
天猫我都爬过,各种信息都能爬,但是反爬很厉害
第一,先确认你的返回信息中有没有你要的信息,如果没有, ...

感谢
页: [1]
查看完整版本: 关于爬虫的一个问题