鱼C论坛

 找回密码
 立即注册
查看: 3970|回复: 4

求各位大神指点,关于scrapy爬虫返回403错误的问题

[复制链接]
发表于 2017-7-1 23:35:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请问下我在学习scrapy进行爬取是,返回了Crawled (403)错误信息,我在网上查了资料说是采用了防爬技术,需要设置用户代理,请问下应该怎么设置用户代理?多谢!
2017-07-01 23:00:30 [scrapy.core.engine] DEBUG: Crawled (403) <GET http://www.dm
oz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)


我用的书上的代码
import scrapy

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self,response):
        filename = response.url.split("/")[ -2]
        with open(filename,'wb') as f:
            f.write(response.body)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-7-2 00:03:01 | 显示全部楼层
小甲鱼的视频教程里面有关于如何防止被封的内容,不仅仅限于代理。请仔细观看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-7-2 10:11:16 | 显示全部楼层
好的,谢谢!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-7-2 10:25:39 | 显示全部楼层
yongxi 发表于 2017-7-2 00:03
小甲鱼的视频教程里面有关于如何防止被封的内容,不仅仅限于代理。请仔细观看

请问下能麻烦发下小甲鱼的视频教程的链接吗?我看了论坛里的链接都找不到小甲鱼的视频教程,多谢!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-7-2 16:41:14 | 显示全部楼层
tmc81 发表于 2017-7-2 10:25
请问下能麻烦发下小甲鱼的视频教程的链接吗?我看了论坛里的链接都找不到小甲鱼的视频教程,多谢!

http://blog.fishc.com/category/python/spider

所有爬虫和正则表达式的教程都在这里
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-2-22 03:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表