[已解决]我用浏览器访问一个链接http302，而用python返回200

FDMa · 发表于 2015-12-21 13:21:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

这个问题已经超出我的理解范围了
我用浏览器访问一个链接http302，而用python返回200，
浏览器返回的headers里面有我想要的地址，而python返回的页面显示的是分享已经没有了！

为什么我用python访问和浏览器访问得到的结果是不一样的，对服务器来说，这两者有什么区别吗？

举个例子，http://pan.baidu.com/s/1pJypFz9密码：l0kd
以下是我的请求头，模仿IE11

head = {'Connection': 'keep-alive',
'Referer': 'https://www.baidu.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0)like Gecko',
'Accept': '*/*',
'Accept-Encoding': 'gzip;deflate',
'Accept-Language': 'zh-CN,zh;q=0.8'}
#自动处理cookies
cj = cookiejar.MozillaCookieJar(filename='百度cookies.txt')
cj.load()
cookies_ = urllib.request.HTTPCookieProcessor(cj)
opener = urllib.request.build_opener(cookies_)

复制代码

最佳答案

月排行榜 / 总排行榜

hldh214

2015-12-21 17:13:42

百度为了防止爬虫用302 redirect: 302来做跳转,而静态的Python爬虫只能爬到跳转之前的网页,自然就爬不到真正的内容了

跳转到最佳答案楼层

hldh214 · 发表于 2015-12-21 17:13:42

这个最佳答案由 hldh214 给出，感谢 hldh214 的回答。

单击隐藏图章

百度为了防止爬虫用302 redirect: 302来做跳转,而静态的Python爬虫只能爬到跳转之前的网页,自然就爬不到真正的内容了

FDMa · 发表于 2015-12-21 21:16:33

hldh214 发表于 2015-12-21 17:13
百度为了防止爬虫用302 redirect: 302来做跳转,而静态的Python爬虫只能爬到跳转之前的网页,自然就爬不到真 ...

为什么python不能反回http 302，
是服务器从那识别出，这是爬虫访问，不是浏览器访问，从而给出不同的返回数据
还是浏览器怎么解读出HTTP302的呢？

hldh214 · 发表于 2015-12-21 21:59:08

FDMa 发表于 2015-12-21 21:16
为什么python不能反回http 302，
是服务器从那识别出，这是爬虫访问，不是浏览器访问，从而给出不同的返 ...

情况很多,很多网站的一些资源只允许站内访问,通过js的ajax来异步GET/POST的,所以要分析一下

FDMa · 发表于 2015-12-21 22:36:32

hldh214 发表于 2015-12-21 21:59
情况很多,很多网站的一些资源只允许站内访问,通过js的ajax来异步GET/POST的,所以要分析一下

那百度分享的这个链接只是直接在浏览器输入地址，
这个url是第一个链接，没有javescript事件啊

我的理解是浏览器和python都是客户端，只要向服务器发送确定的数据，返回的数据也应该是一样的。

hldh214 · 发表于 2015-12-21 22:44:41

FDMa 发表于 2015-12-21 22:36
那百度分享的这个链接只是直接在浏览器输入地址，
这个url是第一个链接，没有javescript事件啊

好吧,确实不知道你这个情况怎么解决,抱歉

FDMa · 发表于 2015-12-21 23:02:31

hldh214 发表于 2015-12-21 22:44
好吧,确实不知道你这个情况怎么解决,抱歉

仍然感谢你的答复

SamSuZhang · 发表于 2016-7-5 14:15:29

您好~
请问一下，你以前遇到这个问题后来解决了吗？
我最近c#遇到了同样的问题。。折腾好几天了不知道该怎么解决呢

FDMa · 发表于 2016-8-21 20:16:13

SamSuZhang 发表于 2016-7-5 14:15
您好~
请问一下，你以前遇到这个问题后来解决了吗？
我最近c#遇到了同样的问题。。折腾好几天了不知道该 ...

python自动完成302的跳转，遇到302不会返回，继续访问loction
问题在百度检查host，host不对的话，自动跳转error404

[已解决]我用浏览器访问一个链接http302，而用python返回200

马上注册，结交更多好友，享用更多功能^_^

评分

浏览过的版块

账号		自动登录	找回密码
密码			立即注册