鱼C论坛

 找回密码
 立即注册
查看: 901|回复: 2

[已解决]定义爬虫爬取范围时,无需https://或http://吗???

[复制链接]
发表于 2022-5-7 18:09:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import scrapy


class Dmoztools_spider(scrapy.Spider):
    name = 'Dmoztools'
    allowed_domains = ['dmoztools.net'] # 无需https://或http://吗???
    start_urls = [ # 将爬取的url加入列表
        'http://dmoztools.net/Computers/Programming/Languages/Python/Books/',
        'http://dmoztools.net/Computers/Programming/Languages/Python/Resources/'
    ]
最佳答案
2022-5-7 19:01:29
url 才会带上协议,domain 是域名的意思,所以写域名就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-5-7 18:31:15 | 显示全部楼层
这个还真没深入研究过,就是ssl协议问题,大多数不加应该没影响吧。不过一般我们明确知道的时候还是加上,反正复制粘贴
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-5-7 19:01:29 | 显示全部楼层    本楼为最佳答案   
url 才会带上协议,domain 是域名的意思,所以写域名就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-18 10:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表