scrapy设置中间件请求头后，被网站拒绝

学程序的古代人 · 发表于 2019-7-6 15:38:15

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由学程序的古代人于 2019-7-6 15:43 编辑

正常使用scrapy访问丁香园是没有问题的http://www.dxy.cn/ 但是自己想通过中间件修改一下请求头，于是自定义了一个类

class RandomUA(object):
def __init__(self):
self.user_agents = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"
]
def process_request(self, request, spider):
request.headers["User-Agent"] = random.choice(self.user_agents)
# return None
def process_response(self, response, spider):
return response

复制代码

接着在settings.py文件中添加设置：
DOWNLOADER_MIDDLEWARES = {
'heart.middlewares.RandomUA': 300,
}

但是运行后被网站拒绝：

2019-07-06 15:33:02 [scrapy.downloadermiddlewares.robotstxt] ERROR: Error downloading <GET http://www.dxy.cn/robots.txt>: process_response() got an unexpected keyword argument 'request'
Traceback (most recent call last):
File "/home/lip/opt/anaconda3/lib/python3.7/site-packages/twisted/internet/defer.py", line 1418, in _inlineCallbacks
result = g.send(result)
File "/home/lip/opt/anaconda3/lib/python3.7/site-packages/scrapy/core/downloader/middleware.py", line 43, in process_request
defer.returnValue((yield download_func(request=request,spider=spider)))
File "/home/lip/opt/anaconda3/lib/python3.7/site-packages/twisted/internet/defer.py", line 1362, in returnValue
raise _DefGen_Return(val)
twisted.internet.defer._DefGen_Return: <200 http://www.dxy.cn/robots.txt>

复制代码

我想这里应该是我自己定义出错，但是看到网上他们都是这么定义的，还有，不加中间件的时候使用默认爬虫也是不会出错，所以不知道问题出在哪里。求大神告知，感谢！

python_mysql · 发表于 2019-7-6 15:54:41

请求头你可以直接设在中间件里面，不用出来，这应该是发生了冲突了，你看 ERROR: Error downloading <GET http://www.dxy.cn/robots.txt>: process_response() got an unexpected keyword argument 'request'。什么意思。

幽梦三影 · 发表于 2019-7-6 17:21:52

这个网站设有robots有些页面不允许爬取，在settings文件里把ROBOTSTXT_OBEY = True改成False

学程序的古代人 · 发表于 2019-7-6 23:11:21

幽梦三影发表于 2019-7-6 17:21
这个网站设有robots有些页面不允许爬取，在settings文件里把ROBOTSTXT_OBEY = True改成False

是的，ROBOTSTXT_OBEY默认为True，这一点我没有更改。但是在没有更改请求头的情况下（也就是默认情况）是可以正常爬取的。所以不明白这是为什么呢。。？
我想有两种可能：
1、请求头设置没有生效
2、请求头设置生效，但仍被网站识别为sipder
不知道我是属于哪一种情况？该如何解决呢？

学程序的古代人 · 发表于 2019-7-8 16:29:15

python_mysql 发表于 2019-7-6 15:54
请求头你可以直接设在中间件里面，不用出来，这应该是发生了冲突了，你看 ERROR: Error downloading : proc ...

1、没能理解“不用出来”是什么意思，是不用重新定义，直接在原先的中间件中进行定义的意思吗？
2、关于冲突的问题：在setting.py文件中我并没有启用原有的中间件，只加入了自定义的中间件。所以这样是不是跟冲突无关呢？
3、关于http://www.dxy.cn/robots.txt这个网站中有一处User-agent: *定义了不允许访问的名单，所以是不是这个网站识别出了虚假的User-agent定义？

学程序的古代人 · 发表于 2019-7-10 15:25:26

顶一下...

账号		自动登录	找回密码
密码			立即注册

scrapy设置中间件请求头后，被网站拒绝

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块