鱼C论坛

 找回密码
 立即注册
查看: 3573|回复: 3

python爬取接口数据问题

[复制链接]
发表于 2017-1-22 23:16:41 | 显示全部楼层 |阅读模式
20鱼币
本帖最后由 supercyt 于 2017-1-22 23:20 编辑

58同城某子网站:http://bj.58.com/pbdn/0/
进入任意一个商品,如http://bj.58.com/pingbandiannao/ ... e=q_2&ClickID=2

想要查询该商品的访问量,由于该网站反爬虫机制,该数据由JS生成,直接爬取只能得到数值0,故找到了他的请求页面: QQ图片20170122231236.png
选择点开:
QQ截图20170122231343.png

访问量依然返回0:
QQ截图20170122231423.png

此时的请求页面已经是带有请求数据的了,,为什么依然访问不到真实的访问量值?


http://jst1.58.com/counter?infoid=26088204291258&userid=&uname=&sid=517158095&lid=1&px=&cfpath=
5,38484


跪求!!!

最佳答案

查看完整内容

你没有加头部信息headers进去啊,这样反爬虫机制一检测,你就被拒了。 看这样: 输出: Counter58.userlist[0]={uid:'0',uname:'',face:'',vt:''};Counter58.total=19714 [Finished in 3.5s]
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-1-22 23:16:42 | 显示全部楼层
本帖最后由 jerryxjr1220 于 2017-1-23 07:43 编辑

你没有加头部信息headers进去啊,这样反爬虫机制一检测,你就被拒了。
看这样:
  1. import requests

  2. url = 'http://jst1.58.com/counter?infoid=26088204291258&userid=&uname=&sid=517158095&lid=1&px=&cfpath=5,38484'
  3. header ={
  4. 'Host':'jst1.58.com',
  5. 'Referer':'http://bj.58.com/pingbandiannao/26088204291258x.shtml?adtype=1&PGTID=0d305a36-0000-1964-f50c-5410655172ff&entinfo=26088204291258_0&psid=100645297194654662872322528&iuType=q_2&ClickID=2',
  6. 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.100 YaBrowser/16.11.1.673 Yowser/2.5 Safari/537.36'
  7. }

  8. res = requests.get(url,headers=header)
  9. print (res.text)
复制代码


输出:
Counter58.userlist[0]={uid:'0',uname:'',face:'',vt:''};Counter58.total=19714
[Finished in 3.5s]
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-1-23 10:18:26 | 显示全部楼层
本帖最后由 supercyt 于 2017-1-23 10:34 编辑
jerryxjr1220 发表于 2017-1-23 07:40
你没有加头部信息headers进去啊,这样反爬虫机制一检测,你就被拒了。
看这样:


厉害了 我的大兄弟!

还有个问题就是 我电脑直接复制粘贴:
http://jst1.58.com/counter?infoi ... &cfpath=5,38484
这个界面为什么获取不到真实值,infoid=26088204291258&userid=&uname=&sid=517158095&lid=1&px=&cfpath=
5,38484这些值不是已经加上了么 而且电脑访问应该有header吧?

而且不知道为什么,从鱼C论坛这里直接点开链接是有的,但是我从别的(如微信)点开链接就没有。。。。小白求解答一下!
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-1-23 10:49:09 | 显示全部楼层
supercyt 发表于 2017-1-23 10:18
厉害了 我的大兄弟!

还有个问题就是 我电脑直接复制粘贴:

你看我的头部信息:
header ={
'Host':'jst1.58.com',
'Referer':'http://bj.58.com/pingbandiannao/26088204291258x.shtml?adtype=1&PGTID=0d305a36-0000-1964-f50c-5410655172ff&entinfo=26088204291258_0&psid=100645297194654662872322528&iuType=q_2&ClickID=2',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.100 YaBrowser/16.11.1.673 Yowser/2.5 Safari/537.36'
}
你从其他地方访问的话,未必有这些信息的。
其中referer和Host信息说明了你是从哪里获取的访问信息,因为从浏览器正常访问的话,这些信息都可以获取的,但是如果是爬虫或者你从其他地方获取链接的话,未必就会有这些信息,然后就把你拒了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-25 03:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表