网页爬取的问题请教,Web开发,编程语言专区,鱼C论坛 - Powered by Discuz! Archiver

论坛 › Web开发 › 网页爬取的问题请教

1029482962 发表于 2020-5-23 15:14:32

网页爬取的问题请教

请问，在get网页时：
我想get京东某商品页面的信息，代码与报告如下：
import requests
try:#记得爬取网站的时候都要添加try,except函数。
r=requests.get("https://item.jd.com/37244559167.html")
print(r.status_code)#每一次都可以status_code检查一下是否正确访问
r.raise_for_status#这个函数能保证如果返回200不产生异常，否则产生异常
r.encoding=r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
报告：
200
<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http://item.jd.com/37244559167.html'</script>
200也就是说成功获取了吧，但为什么又没有信息呀？
同样的代码，我用淘宝的商品网页就可以访问。。。。。

xiaosi4081 发表于 2020-5-24 07:45:33

？？？

wp231957 发表于 2020-5-24 23:33:58

r.text就是获取页面源码
如果网站是通过ajax技术，那源码就不是你想要的

kaohsing 发表于 2020-5-31 07:40:40

要找到真实数据地址，请求后，解析网页源码即可。

页: [1]

查看完整版本: 网页爬取的问题请教