鱼C论坛

 找回密码
 立即注册
查看: 654|回复: 1

关于scrapy 爬虫

[复制链接]
发表于 2019-3-29 00:12:23 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最近在看小甲鱼关于scrapy的视频,到了最后一步发现导出来的信息只有两行,而不是都倒出来了,但是如果改成print title、link 和 desc 的时候是完整的。
有哪位高手可以告诉一下怎么改,或者是什么原因吗?

QQ20190329-001129@2x.png

  1. import scrapy

  2. from tutorial.items import DmozItem


  3. class DmozSpider(scrapy.Spider):
  4.     name = 'dmoz'

  5.     allowed_domain = ['dmoztools.net']
  6.     start_urls = [
  7.         'http://www.dmoztools.net/Computers/Programming/Languages/Python/Resources/',
  8.         'http://www.dmoztools.net/Computers/Programming/Languages/Python/Books/']

  9.     def parse(self,response):
  10.         # filename  = response.url.split('/')[-2]
  11.         # with open(filename,'wb') as f:
  12.         #     f.write(response.body)

  13.         sel = scrapy.selector.Selector(response)#  选择器
  14.         sites = sel.xpath('//section/div/div/div/div[@class="title-and-desc"]')
  15.         items = []
  16.         
  17.         for site in sites:
  18.             item = DomzItem()
  19.             
  20.             item['title'] = site.xpath('a/div/text()').extract()
  21.             item['link'] = site.xpath('a/@href').extract()
  22.             item['desc'] = site.xpath('div/text()').extract()
  23.             items.append(item)

  24.         return items
  25.             
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-3-29 00:14:09 | 显示全部楼层
要是有人在电脑上运行没有问题也可以上传交流一下哦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-14 21:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表