python的scrapy爬取起点小说问题求助

13576112194 · 发表于 2018-4-10 15:16:28

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

请大神先看图
有一张是源代码，源代码没有什么问题，我跑了，但是跑完我检查发现除了一些问题
我提取书名的时候用的xpath，我是以第一页为标准的，所以第一页没有什么问题，
但是后面的页面出了问题
问题是后面几张图上可以看到
虽然第一页爬的没有任何问题，但是后面有些书名是分开的
就像那个在三国杀怪升级当战神这本书一样
它把书名拆分成了3份，用第一页的xpath去提取内容的话，会多出来三个，请看图
但是如果我按三国杀怪升级当战神的xpath去提取的话
那第一页的也不是10本了（每页的10本书）
问题：有没有一种方法可以把a标签里的文本信息全部提取出来

第四时空 · 发表于 2018-4-10 16:31:52

scrapy应该有个依赖库w3lib(没有就装一下)，里面有个删除标签的函数。代码示例：

from w3lib.html import remove_tags
from scrapy.selector import Selector
if __name__ == '__main__':
s = """
<a href="//book.qidian.com/info/1009246942" target="_blank" data-eid="qd_S05" data-bid="1009246942" data-algrid="0.0.0">
在
<cite class="red-kw">三国杀怪</cite>
升级当战神
</a>
"""
response = Selector(text=s)
html_text = response.xpath("//a").extract_first()
book_name = "".join(remove_tags(html_text).split())
print(book_name)

复制代码

13576112194 · 发表于 2018-4-10 19:59:16

第四时空发表于 2018-4-10 16:31
scrapy应该有个依赖库w3lib(没有就装一下)，里面有个删除标签的函数。代码示例：

是要弄2个for循环吗？a标签的书名一个，其他的一个

账号		自动登录	找回密码
密码			立即注册