鱼C论坛

 找回密码
 立即注册
查看: 1202|回复: 8

[已解决]crawl spider 问题求助

[复制链接]
发表于 2022-1-9 11:32:35 | 显示全部楼层 |阅读模式
30鱼币
  1. import scrapy
  2. from scrapy.linkextractors import LinkExtractor
  3. from scrapy.spiders import CrawlSpider, Rule

  4. class TbSpider(CrawlSpider):
  5.     name = 'tb'
  6.     allowed_domains = ['wenzhou.gov.cn']
  7.     start_urls = ['https://wlwz.wenzhou.gov.cn/wzlist_1_1.html']

  8.     rules = (
  9.         Rule(LinkExtractor(allow=r'/wzshow_\d+\.html'), callback='parse_item'),
  10.         Rule(LinkExtractor(allow=r'/wzlist_1_\d+\.html'), follow=True)
  11.     )

  12.     def parse_item(self, response):
  13.         print(response.body)
  14.         item = {}
  15.         item['title'] = response.xpath('//td[@class="a1"]//a/text()').get()
  16.         print(item['title'])
  17.         return item
  18.         #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
  19.         #item['name'] = response.xpath('//div[@id="name"]').get()
  20.         #item['description'] = response.xpath('//div[@id="description"]').get()


复制代码


为啥我的输出为空呢,我连response.body都输出不出来
最佳答案
2022-1-9 11:32:36
没用过Scrapy,但你的callback应该写错了吧。。

最佳答案

查看完整内容

没用过Scrapy,但你的callback应该写错了吧。。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-1-9 11:32:36 | 显示全部楼层    本楼为最佳答案   
没用过Scrapy,但你的callback应该写错了吧。。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-9 14:29:10 | 显示全部楼层
阿奇_o 发表于 2022-1-9 14:02
没用过Scrapy,但你的callback应该写错了吧。。

没有,照葫芦画瓢写的
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-9 15:34:13 | 显示全部楼层
偌大的论坛,竟无一人能回答这个问题!
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-9 22:56:50 From FishC Mobile | 显示全部楼层
分送你了,太难了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-1-10 16:23:40 | 显示全部楼层
唯爱丶雪 发表于 2022-1-9 22:56
分送你了,太难了

我昨晚搞了一下,你可以先用Scrapy shell 试试,我一开始用css找没找到,用这个xpath可以

  1. # scrapy shell https://wlwz.wenzhou.gov.cn/wzlist_1_1.html  
  2. # 进入scrapy shell 后,可以进行一些试验

  3. In [32]: response.xpath('//*[@class="wzlist"]//*[@class="a1"]//a//@href').extract()
  4. Out[32]:
  5. ['/wzshow_170611.html',
  6. '/wzshow_170605.html',
  7. '/wzshow_170607.html',
  8. '/wzshow_170592.html',
  9. '/wzshow_170586.html',
  10. '/wzshow_170588.html',
  11. '/wzshow_170589.html',
  12. '/wzshow_170590.html',
  13. '/wzshow_170594.html',
  14. '/wzshow_170596.html',
  15. '/wzshow_170598.html',
  16. '/wzshow_170600.html',
  17. '/wzshow_170601.html',
  18. '/wzshow_170603.html',
  19. '/wzshow_170582.html',
  20. '/wzshow_170584.html']
  21. In [41]: response.xpath('//*[@class="wzlist"]//*[@class="a1"]//a//text()').extract()
  22. Out[41]:
  23. ['EJ785405229JP海关留验10天',
  24. '鳌江镇银泰花园小区防疫管控问题',
  25. '温州海关驻邮局办事处的电话一直打不通',
  26. '城发集团,影响形象的错别字',
  27. '浙南科技城龙湖揽镜到底有没有保障性租赁...',
  28. '南环线',
  29. '群租房举报第三次',
  30. '高教博园房产证',
  31. '无证非法经营餐饮请求有关部门查处',
  32. '夫妻双方公积金贷款额度是否可以比照温州...',
  33. '在当前反诈形势下,若被诈骗,受害人信息...',
  34. '柏林公馆 店铺招牌',
  35. '关于金域传奇小区门口道路管理',
  36. '关于高校毕业生就业补贴的发放咨询',
  37. '哲学教育无办学许可资质,双减政策依然可...',
  38. '水头镇疫情防控条例']

复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-10 21:47:17 From FishC Mobile | 显示全部楼层
阿奇_o 发表于 2022-1-10 16:23
我昨晚搞了一下,你可以先用Scrapy shell 试试,我一开始用css找没找到,用这个xpath可以

谢谢你,不过我会scrapy ,只是突然学到craw spider故有此疑问
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-1-11 00:01:49 | 显示全部楼层
唯爱丶雪 发表于 2022-1-10 21:47
谢谢你,不过我会scrapy ,只是突然学到craw spider故有此疑问

哈哈,我本来没用过Scrapy的,昨晚自己看了下书,然后自己练了练,
现在已经可以把这个网站爬取出来了,并且数据保存到MongoDB里。。还蛮有成就感的,哈哈。

谢谢你的问题   ^_^  

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-1-12 17:55:14 | 显示全部楼层
阿奇_o 发表于 2022-1-11 00:01
哈哈,我本来没用过Scrapy的,昨晚自己看了下书,然后自己练了练,
现在已经可以把这个网站爬取出来了, ...

不客气
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-30 13:16

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表