鱼C论坛

 找回密码
 立即注册
查看: 2011|回复: 1

【求教】使用scrapy爬虫爬数据被重定向的问题求教!!

[复制链接]
发表于 2019-1-10 09:30:43 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
看完小甲鱼的scrapy的视频兴致冲冲的去爬数据 ,却遇到了网页重定向的问题 ,特来求教。
我爬的网站是https://www.tiebaobei.com/ue/1
爬了几页后返回302的重定向错误,重定向的网站变成https://m.tiebaobei.com/ue/1
我一看只是把www.变成了m.,
所以我在class CehomeDownloaderMiddleware(object):里做了如下更改
def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        
        #为了规避重定向,尝试一下在这里调用request的_set_url
        if "//m.tiebaobei" in request.url:
            time.sleep(120)
            logger.debug(f"request.url是:{request.url}程度走到这里了--------------response.url是:{response.url}------遇到重定向,休息2分钟!---------------------------------")
        request._set_url((request.url.replace("//m.","//www.") if ("//m.tiebaobei" in request.url) else request.url))
        return None

但还是不行,在网上百度了很多方法,也都不行,只能来这里求教了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-1-14 04:19:27 From FishC Mobile | 显示全部楼层
帮你顶一下,我也不懂
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-28 08:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表