1029482962 发表于 2020-5-23 15:14:32

网页爬取的问题请教

请问,在get网页时:
我想get京东某商品页面的信息,代码与报告如下:
import requests
try:#记得爬取网站的时候都要添加try,except函数。
    r=requests.get("https://item.jd.com/37244559167.html")
    print(r.status_code)#每一次都可以status_code检查一下是否正确访问
    r.raise_for_status#这个函数能保证如果返回200不产生异常,否则产生异常
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")
报告:
200
<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http://item.jd.com/37244559167.html'</script>
200也就是说成功获取了吧,但为什么又没有信息呀?
同样的代码,我用淘宝的商品网页就可以访问。。。。。

xiaosi4081 发表于 2020-5-24 07:45:33

???

wp231957 发表于 2020-5-24 23:33:58

r.text就是获取页面源码
如果网站是通过ajax技术,那源码就不是你想要的

kaohsing 发表于 2020-5-31 07:40:40

要找到真实数据地址,请求后,解析网页源码即可。
页: [1]
查看完整版本: 网页爬取的问题请教