定义爬虫爬取范围时,无需https://或http://吗???
import scrapyclass Dmoztools_spider(scrapy.Spider):
name = 'Dmoztools'
allowed_domains = ['dmoztools.net'] # 无需https://或http://吗???
start_urls = [ # 将爬取的url加入列表
'http://dmoztools.net/Computers/Programming/Languages/Python/Books/',
'http://dmoztools.net/Computers/Programming/Languages/Python/Resources/'
] 这个还真没深入研究过,就是ssl协议问题,大多数不加应该没影响吧。不过一般我们明确知道的时候还是加上,反正复制粘贴 url 才会带上协议,domain 是域名的意思,所以写域名就行了
页:
[1]