鱼C论坛

 找回密码
 立即注册
查看: 934|回复: 7

scrapy shell调试网页出现这个问题,有高手帮助下怎么解决吗?

[复制链接]
发表于 2019-3-11 16:47:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
scrapy shell http://www.gdfc.org.cn/这个网页,显示错误如下:
QQ截图20190311164807.jpg
意思是请求头太长?没太明白怎么解决
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-3-11 20:38:31 | 显示全部楼层
再仔细检查下代码吧。这东西用的人少,只有告自己细心
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-11 21:52:48 | 显示全部楼层
请求过多了。
响应无效
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-12 08:46:07 | 显示全部楼层
wongyusing 发表于 2019-3-11 21:52
请求过多了。
响应无效

但是用浏览器打开就没这个问题,用requests爬下来也可以,就是用调试命令打开会这样,百度也搜不到解决的方法,有什么办法解决这个呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-12 22:19:42 | 显示全部楼层
wiselin 发表于 2019-3-12 08:46
但是用浏览器打开就没这个问题,用requests爬下来也可以,就是用调试命令打开会这样,百度也搜不到解决的 ...

看一下你的requests代码

或者在shell模式下加上请求头等参数试试。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-13 09:41:25 | 显示全部楼层
本帖最后由 wiselin 于 2019-3-13 09:43 编辑
wongyusing 发表于 2019-3-12 22:19
看一下你的requests代码

或者在shell模式下加上请求头等参数试试。

  1. # -*- coding: GBK -*-
  2. import scrapy


  3. class NumSpider(scrapy.Spider):
  4.     name = 'num'
  5.     allowed_domains = ['www.gdfc.org.cn']
  6.    

  7.     def start_requests(self):
  8.         header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
  9.                   'Accept-Language':'zh-CN,zh;q=0.8',
  10.                   'Cache-Control':'max-age=0',
  11.                   'Connection':'keep-alive',
  12.                   'Host':'www.gdfc.org.cn',
  13.                   'If-Modified-Since':'Tue, 12 Mar 2019 01:32:25 GMT',
  14.                   'If-None-Match':'"5c870c29-29217"',
  15.                   'Referer':'http://www.gdfc.org.cn/sjfx/tjzb10_50.html',
  16.                   'Upgrade-Insecure-Requests':'1',
  17.                   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
  18.         urls = ['http://www.gdfc.org.cn/sjfx/tjzb10_200.html']
  19.         for url in urls:
  20.             yield scrapy.Request(url=url,headers = header,callback=self.parse)
  21.             
  22.     def parse(self, response):
  23.         pass
复制代码

请求头是完全复制浏览器的,我用SplashRequest就可以爬下来,用普通的request就出现开始说的问题
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-13 10:19:40 | 显示全部楼层
header里面尝试把host、If-Modified-Since、If-None-Match、Referer注释掉试试。
我这台电脑暂时无法测试
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-13 11:17:37 | 显示全部楼层
wongyusing 发表于 2019-3-13 10:19
header里面尝试把host、If-Modified-Since、If-None-Match、Referer注释掉试试。
我这台电脑暂时无法测试

试过,还是老样子,依然出现上面shell所报的错误
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-14 12:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表