定义爬虫爬取范围时，无需https://或http://吗？？？,Python交流,编程语言专区,鱼C论坛

lzb1001 发表于 2022-5-7 18:09:12

定义爬虫爬取范围时，无需https://或http://吗？？？

import scrapy

class Dmoztools_spider(scrapy.Spider):
name = 'Dmoztools'
allowed_domains = ['dmoztools.net'] # 无需https://或http://吗？？？
start_urls = [ # 将爬取的url加入列表
'http://dmoztools.net/Computers/Programming/Languages/Python/Books/',
'http://dmoztools.net/Computers/Programming/Languages/Python/Resources/'
]

qq1151985918 发表于 2022-5-7 18:31:15

这个还真没深入研究过，就是ssl协议问题，大多数不加应该没影响吧。不过一般我们明确知道的时候还是加上，反正复制粘贴

isdkz 发表于 2022-5-7 19:01:29

url 才会带上协议，domain 是域名的意思，所以写域名就行了

页: [1]

鱼C论坛's Archiver

定义爬虫爬取范围时，无需https://或http://吗？？？