鱼C论坛

 找回密码
 立即注册
查看: 1374|回复: 2

python的scrapy爬取起点小说问题求助

[复制链接]
发表于 2018-4-10 15:16:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
问题1.png 问题4.png 问题3.png 问题2.png
请大神先看图
有一张是源代码,源代码没有什么问题,我跑了,但是跑完我检查发现除了一些问题
我提取书名的时候用的xpath,我是以第一页为标准的,所以第一页没有什么问题,
但是后面的页面出了问题
问题是后面几张图上可以看到
虽然第一页爬的没有任何问题,但是后面有些书名是分开的
就像那个在三国杀怪升级当战神这本书一样
它把书名拆分成了3份,用第一页的xpath去提取内容的话,会多出来三个,请看图
但是如果我按三国杀怪升级当战神的xpath去提取的话
那第一页的也不是10本了(每页的10本书)
问题:有没有一种方法可以把a标签里的文本信息全部提取出来
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-4-10 16:31:52 | 显示全部楼层
scrapy应该有个依赖库w3lib(没有就装一下),里面有个删除标签的函数。代码示例:
  1. from w3lib.html import remove_tags
  2. from scrapy.selector import Selector

  3. if __name__ == '__main__':
  4.     s = """
  5.         <a href="//book.qidian.com/info/1009246942" target="_blank" data-eid="qd_S05" data-bid="1009246942" data-algrid="0.0.0">
  6.         在
  7.         <cite class="red-kw">三国杀怪</cite>
  8.         升级当战神
  9.         </a>
  10.     """
  11.     response = Selector(text=s)
  12.     html_text = response.xpath("//a").extract_first()

  13.     book_name = "".join(remove_tags(html_text).split())
  14.     print(book_name)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-10 19:59:16 | 显示全部楼层
第四时空 发表于 2018-4-10 16:31
scrapy应该有个依赖库w3lib(没有就装一下),里面有个删除标签的函数。代码示例:

是要弄2个for循环吗?a标签的书名一个,其他的一个
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-29 07:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表