鱼C论坛

 找回密码
 立即注册
查看: 4997|回复: 3

[已解决]关于爬虫的一个问题

[复制链接]
发表于 2017-3-16 22:07:07 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我在京东上练习爬虫,审查元素的Network 有menthod:Post, 也顺利完成这个项目。但是我试着在天猫上爬取某些数据的时候,却只有 GET ,错误显示的是urllib error ,我一样用的是Beautifulsoup 这个库 ,所以我在这里,想问的是,是不是因为某些网站的关系不允许爬虫访问或是说爬虫需要某些条件才能满足?
最佳答案
2017-3-27 16:03:52
天猫我都爬过,各种信息都能爬,但是反爬很厉害
第一,先确认你的返回信息中有没有你要的信息,如果没有,那可能是你的URL找的不对,天猫基本都是在JS中,去那里找吧
第二,如果你能从审查中看到你要的信息,但是你用requests得不到,那就可能是需要传送信息进去了,给你个提示,虽然天猫不用post,但是get里面需要带上cookie的值才能得到信息,至于cookie里面带上什么就要靠自己去研究了,我就不剧透了,这个挺有意思的
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-3-17 10:40:25 | 显示全部楼层
有的网站对于爬取的内容有限制,你可以看一下Robots协议,对网站的一下限制,京东的协议,希望对你有用,我也是小白
  1. User-agent: *
  2. Disallow: /?*
  3. Disallow: /pop/*.html
  4. Disallow: /pinpai/*.html?*
  5. User-agent: EtaoSpider
  6. Disallow: /
  7. User-agent: HuihuiSpider
  8. Disallow: /
  9. User-agent: GwdangSpider
  10. Disallow: /
  11. User-agent: WochachaSpider
  12. Disallow: /
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-3-27 16:03:52 | 显示全部楼层    本楼为最佳答案   
天猫我都爬过,各种信息都能爬,但是反爬很厉害
第一,先确认你的返回信息中有没有你要的信息,如果没有,那可能是你的URL找的不对,天猫基本都是在JS中,去那里找吧
第二,如果你能从审查中看到你要的信息,但是你用requests得不到,那就可能是需要传送信息进去了,给你个提示,虽然天猫不用post,但是get里面需要带上cookie的值才能得到信息,至于cookie里面带上什么就要靠自己去研究了,我就不剧透了,这个挺有意思的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2017-3-28 09:52:04 | 显示全部楼层
gopythoner 发表于 2017-3-27 16:03
天猫我都爬过,各种信息都能爬,但是反爬很厉害
第一,先确认你的返回信息中有没有你要的信息,如果没有, ...

感谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-17 11:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表