鱼C论坛

 找回密码
 立即注册
查看: 1743|回复: 5

scrapy设置中间件请求头后,被网站拒绝

[复制链接]
发表于 2019-7-6 15:38:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 学程序的古代人 于 2019-7-6 15:43 编辑

正常使用scrapy访问丁香园是没有问题的http://www.dxy.cn/  但是自己想通过中间件修改一下请求头,于是自定义了一个类
  1. class RandomUA(object):
  2.     def __init__(self):
  3.         self.user_agents = [
  4.             "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
  5.             "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
  6.             "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"
  7.         ]

  8.     def process_request(self, request, spider):
  9.         request.headers["User-Agent"] = random.choice(self.user_agents)
  10.         # return None

  11.     def process_response(self, response, spider):
  12.         return response
复制代码


接着在settings.py文件中添加设置:
DOWNLOADER_MIDDLEWARES = {
   'heart.middlewares.RandomUA': 300,
}

但是运行后被网站拒绝:
  1. 2019-07-06 15:33:02 [scrapy.downloadermiddlewares.robotstxt] ERROR: Error downloading <GET http://www.dxy.cn/robots.txt>: process_response() got an unexpected keyword argument 'request'
  2. Traceback (most recent call last):
  3.   File "/home/lip/opt/anaconda3/lib/python3.7/site-packages/twisted/internet/defer.py", line 1418, in _inlineCallbacks
  4.     result = g.send(result)
  5.   File "/home/lip/opt/anaconda3/lib/python3.7/site-packages/scrapy/core/downloader/middleware.py", line 43, in process_request
  6.     defer.returnValue((yield download_func(request=request,spider=spider)))
  7.   File "/home/lip/opt/anaconda3/lib/python3.7/site-packages/twisted/internet/defer.py", line 1362, in returnValue
  8.     raise _DefGen_Return(val)
  9. twisted.internet.defer._DefGen_Return: <200 http://www.dxy.cn/robots.txt>
复制代码


我想这里应该是我自己定义出错,但是看到网上他们都是这么定义的,还有,不加中间件的时候使用默认爬虫也是不会出错,所以不知道问题出在哪里。求大神告知,感谢!
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-7-6 15:54:41 | 显示全部楼层
请求头你可以直接设在中间件里面,不用出来,这应该是发生了冲突了,你看 ERROR: Error downloading <GET http://www.dxy.cn/robots.txt>: process_response() got an unexpected keyword argument 'request'。什么意思。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-7-6 17:21:52 | 显示全部楼层
这个网站设有robots有些页面不允许爬取, 在settings文件里把ROBOTSTXT_OBEY = True改成False
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-7-6 23:11:21 | 显示全部楼层
幽梦三影 发表于 2019-7-6 17:21
这个网站设有robots有些页面不允许爬取, 在settings文件里把ROBOTSTXT_OBEY = True改成False

是的,ROBOTSTXT_OBEY默认为True,这一点我没有更改。但是在没有更改请求头的情况下(也就是默认情况)是可以正常爬取的。所以不明白这是为什么呢。。?
我想有两种可能:
1、请求头设置没有生效
2、请求头设置生效,但仍被网站识别为sipder
不知道我是属于哪一种情况?该如何解决呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-7-8 16:29:15 | 显示全部楼层
python_mysql 发表于 2019-7-6 15:54
请求头你可以直接设在中间件里面,不用出来,这应该是发生了冲突了,你看 ERROR: Error downloading : proc ...

1、没能理解“不用出来”是什么意思,是不用重新定义,直接在原先的中间件中进行定义的意思吗?
2、关于冲突的问题:在setting.py文件中我并没有启用原有的中间件,只加入了自定义的中间件。所以这样是不是跟冲突无关呢?
3、关于http://www.dxy.cn/robots.txt这个网站中有一处User-agent: *定义了不允许访问的名单,所以是不是这个网站识别出了虚假的User-agent定义?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-7-10 15:25:26 | 显示全部楼层
顶一下...
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-16 18:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表