lzb1001 发表于 2022-5-7 18:09:12

定义爬虫爬取范围时,无需https://或http://吗???

import scrapy


class Dmoztools_spider(scrapy.Spider):
    name = 'Dmoztools'
    allowed_domains = ['dmoztools.net'] # 无需https://或http://吗???
    start_urls = [ # 将爬取的url加入列表
      'http://dmoztools.net/Computers/Programming/Languages/Python/Books/',
      'http://dmoztools.net/Computers/Programming/Languages/Python/Resources/'
    ]

qq1151985918 发表于 2022-5-7 18:31:15

这个还真没深入研究过,就是ssl协议问题,大多数不加应该没影响吧。不过一般我们明确知道的时候还是加上,反正复制粘贴

isdkz 发表于 2022-5-7 19:01:29

url 才会带上协议,domain 是域名的意思,所以写域名就行了
页: [1]
查看完整版本: 定义爬虫爬取范围时,无需https://或http://吗???