|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
这个问题已经超出我的理解范围了
我用浏览器访问一个链接http302,而用python返回200,
浏览器返回的headers里面有我想要的地址,而python返回的页面显示的是分享已经没有了!
为什么我用python访问和浏览器访问得到的结果是不一样的,对服务器来说,这两者有什么区别吗?
举个例子,http://pan.baidu.com/s/1pJypFz9密码:l0kd
以下是我的请求头,模仿IE11
- head = {'Connection': 'keep-alive',
- 'Referer': 'https://www.baidu.com/',
- 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0)like Gecko',
- 'Accept': '*/*',
- 'Accept-Encoding': 'gzip;deflate',
- 'Accept-Language': 'zh-CN,zh;q=0.8'}
- #自动处理cookies
- cj = cookiejar.MozillaCookieJar(filename='百度cookies.txt')
- cj.load()
- cookies_ = urllib.request.HTTPCookieProcessor(cj)
- opener = urllib.request.build_opener(cookies_)
复制代码
百度为了防止爬虫用302 redirect: 302来做跳转,而静态的Python爬虫只能爬到跳转之前的网页,自然就爬不到真正的内容了
|
|