网页爬取的问题请教
请问,在get网页时:我想get京东某商品页面的信息,代码与报告如下:
import requests
try:#记得爬取网站的时候都要添加try,except函数。
r=requests.get("https://item.jd.com/37244559167.html")
print(r.status_code)#每一次都可以status_code检查一下是否正确访问
r.raise_for_status#这个函数能保证如果返回200不产生异常,否则产生异常
r.encoding=r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
报告:
200
<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http://item.jd.com/37244559167.html'</script>
200也就是说成功获取了吧,但为什么又没有信息呀?
同样的代码,我用淘宝的商品网页就可以访问。。。。。 ??? r.text就是获取页面源码
如果网站是通过ajax技术,那源码就不是你想要的 要找到真实数据地址,请求后,解析网页源码即可。
页:
[1]