鱼C论坛

 找回密码
 立即注册
查看: 3254|回复: 3

[已解决]网页爬取的问题请教

[复制链接]
发表于 2020-5-23 15:14:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请问,在get网页时:
我想get京东某商品页面的信息,代码与报告如下:
import requests
try:#记得爬取网站的时候都要添加try,except函数。
    r=requests.get("https://item.jd.com/37244559167.html")
    print(r.status_code)#每一次都可以status_code检查一下是否正确访问
    r.raise_for_status#这个函数能保证如果返回200不产生异常,否则产生异常
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")
报告:
200
<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http://item.jd.com/37244559167.html'</script>
200也就是说成功获取了吧,但为什么又没有信息呀?
同样的代码,我用淘宝的商品网页就可以访问。。。。。
最佳答案
2020-5-24 23:33:58
r.text就是获取页面源码
如果网站是通过ajax技术,那源码就不是你想要的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-24 07:45:33 From FishC Mobile | 显示全部楼层
???
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-24 23:33:58 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
r.text就是获取页面源码
如果网站是通过ajax技术,那源码就不是你想要的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-31 07:40:40 From FishC Mobile | 显示全部楼层
要找到真实数据地址,请求后,解析网页源码即可。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-23 15:42

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表