scrapy shell调试网页出现这个问题，有高手帮助下怎么解决吗？

wiselin · 发表于 2019-3-11 16:47:45

您需要登录才可以下载或查看，没有账号？立即注册

x

scrapy shell http://www.gdfc.org.cn/这个网页，显示错误如下：
QQ截图20190311164807.jpg

意思是请求头太长？没太明白怎么解决

ba21 · 发表于 2019-3-11 20:38:31

再仔细检查下代码吧。这东西用的人少，只有告自己细心

wongyusing · 发表于 2019-3-11 21:52:48

请求过多了。
响应无效

wiselin · 发表于 2019-3-12 08:46:07

wongyusing 发表于 2019-3-11 21:52
请求过多了。
响应无效

但是用浏览器打开就没这个问题，用requests爬下来也可以，就是用调试命令打开会这样，百度也搜不到解决的方法，有什么办法解决这个呢？

wongyusing · 发表于 2019-3-12 22:19:42

wiselin 发表于 2019-3-12 08:46
但是用浏览器打开就没这个问题，用requests爬下来也可以，就是用调试命令打开会这样，百度也搜不到解决的 ...

看一下你的requests代码

或者在shell模式下加上请求头等参数试试。

wiselin · 发表于 2019-3-13 09:41:25

本帖最后由 wiselin 于 2019-3-13 09:43 编辑

wongyusing 发表于 2019-3-12 22:19
看一下你的requests代码

或者在shell模式下加上请求头等参数试试。

# -*- coding: GBK -*-
import scrapy
class NumSpider(scrapy.Spider):
name = 'num'
allowed_domains = ['www.gdfc.org.cn']
def start_requests(self):
header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'www.gdfc.org.cn',
'If-Modified-Since':'Tue, 12 Mar 2019 01:32:25 GMT',
'If-None-Match':'"5c870c29-29217"',
'Referer':'http://www.gdfc.org.cn/sjfx/tjzb10_50.html',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
urls = ['http://www.gdfc.org.cn/sjfx/tjzb10_200.html']
for url in urls:
yield scrapy.Request(url=url,headers = header,callback=self.parse)
def parse(self, response):
pass

复制代码

请求头是完全复制浏览器的，我用SplashRequest就可以爬下来，用普通的request就出现开始说的问题

wongyusing · 发表于 2019-3-13 10:19:40

header里面尝试把host、If-Modified-Since、If-None-Match、Referer注释掉试试。
我这台电脑暂时无法测试

wiselin · 发表于 2019-3-13 11:17:37

wongyusing 发表于 2019-3-13 10:19
header里面尝试把host、If-Modified-Since、If-None-Match、Referer注释掉试试。
我这台电脑暂时无法测试

试过，还是老样子，依然出现上面shell所报的错误

账号		自动登录	找回密码
密码			立即注册