Star1111 发表于 2020-5-7 20:46:09

请问爬取京东返回这样的信息是为什么?

RT,就跟着视频爬取京东的商品时返回这样的信息,是为什么呀?

<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http://item.jd.com/4643045.html'</script>


这是源代码:
import requests
url = input('请输入网站')
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:10000])
except:
    print('爬取失败')

zltzlt 发表于 2020-5-7 20:47:14

你的爬虫没登录京东,这给出的是让你登录京东的网址

qiuyouzhi 发表于 2020-5-7 20:47:56

京东让你登录,可以试试套上Cookie或者用selenium。

Star1111 发表于 2020-5-7 21:22:25

zltzlt 发表于 2020-5-7 20:47
你的爬虫没登录京东,这给出的是让你登录京东的网址

我刚学哈哈哈看着视频他这样就能够获得返回的信息了请问有什么解决办法吗?

zltzlt 发表于 2020-5-7 21:23:30

Star1111 发表于 2020-5-7 21:22
我刚学哈哈哈看着视频他这样就能够获得返回的信息了请问有什么解决办法吗?

可以加上 Cookie

颜栩栩 发表于 2020-5-8 10:01:12

本帖最后由 颜栩栩 于 2020-5-8 10:03 编辑

可以尝试添加cookie和User-Agent在请求头中,cookie的获取方式见附件
import requests


url = 'http://item.jd.com/4643045.html'
cookiestr='''这里放上你的cookie!!!'''
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.14 Safari/537.36 Edg/83.0.478.13","cookie":cookiestr}
try:
    r = requests.get(url=url,headers=headers)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print('爬取失败')

cookie的获取方式:
https://item.jd.com/4643045.html进入这个页面后按F12,进入NETWORK这个标签,再刷新页面,可以看到NETWORK中出现了很多项!找到4643045.html这一项,即可获取cookie。
(为了保护隐私我打马了哈~)

Pythonnewers 发表于 2020-5-8 15:40:28

这边建议+cookie

bigfishhead 发表于 2021-3-30 17:01:12

每次从搜索页请求到详情页,response的body都会跳转到登录界面,这个怎么办?愁死了。我的请求头把该带上的都带上了,cookies也有
response=<200 https://item.jd.com/100018568398.html>
body=b"<script>window.location.href='https://passport.jd.com/new/login.aspx?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100018568398.html'</script>"
request=<GET https://item.jd.com/100018568398.html>
页: [1]
查看完整版本: 请问爬取京东返回这样的信息是为什么?