鱼C论坛

 找回密码
 立即注册
查看: 4470|回复: 7

请问爬取京东返回这样的信息是为什么?

[复制链接]
发表于 2020-5-7 20:46:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
RT,就跟着视频爬取京东的商品时返回这样的信息,是为什么呀?

<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http://item.jd.com/4643045.html'</script>


这是源代码:
import requests
url = input('请输入网站')
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:10000])
except:
    print('爬取失败')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-7 20:47:14 | 显示全部楼层
你的爬虫没登录京东,这给出的是让你登录京东的网址
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-7 20:47:56 | 显示全部楼层
京东让你登录,可以试试套上Cookie或者用selenium。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-7 21:22:25 | 显示全部楼层
zltzlt 发表于 2020-5-7 20:47
你的爬虫没登录京东,这给出的是让你登录京东的网址

我刚学哈哈哈看着视频他这样就能够获得返回的信息了请问有什么解决办法吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-7 21:23:30 | 显示全部楼层
Star1111 发表于 2020-5-7 21:22
我刚学哈哈哈看着视频他这样就能够获得返回的信息了请问有什么解决办法吗?

可以加上 Cookie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-8 10:01:12 | 显示全部楼层
本帖最后由 颜栩栩 于 2020-5-8 10:03 编辑

可以尝试添加cookie和User-Agent在请求头中,cookie的获取方式见附件
import requests


url = 'http://item.jd.com/4643045.html'
cookiestr='''这里放上你的cookie!!!'''
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.14 Safari/537.36 Edg/83.0.478.13","cookie":cookiestr}
try:
    r = requests.get(url=url,headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print('爬取失败')

cookie的获取方式:
https://item.jd.com/4643045.html进入这个页面后按F12,进入NETWORK这个标签,再刷新页面,可以看到NETWORK中出现了很多项!找到4643045.html这一项,即可获取cookie。
(为了保护隐私我打马了哈~)

cookie的获取方法.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-8 15:40:28 | 显示全部楼层
这边建议+cookie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-30 17:01:12 | 显示全部楼层
每次从搜索页请求到详情页,response的body都会跳转到登录界面,这个怎么办?愁死了。我的请求头把该带上的都带上了,cookies也有
response=<200 https://item.jd.com/100018568398.html>
body=b"<script>window.location.href='https://passport.jd.com/new/login.aspx?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100018568398.html'</script>"
request=<GET https://item.jd.com/100018568398.html>
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 04:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表