鱼C论坛

 找回密码
 立即注册
查看: 2292|回复: 0

[作品展示] 以《云轩阁》小说网为例,爬取小说成功!

[复制链接]
发表于 2019-8-29 18:01:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
跟着小甲鱼学习爬虫之后,终于成功的写出能够下载小说的爬虫,跟大家分享一下喜悦的心情。
  1. from requests_html import HTMLSession
  2. import time

  3. session = HTMLSession()

  4. wz = input("请输入需要下载的小说网址:")#云轩阁小说网,需要下载小说章节列表网址
  5. r = session.get(wz)
  6. images = r.html.find('#readerlist',first=True)#章节目录
  7. mc = r.html.find('#smallcons > h1',first=True)#小说名称
  8. urls = list(images.absolute_links)#获得全部章节链接,并转换成列表
  9. urls.sort()#升序排列网址
  10. s = len(urls)#计算章节数量

  11. file = open(mc.text+'.txt','a',encoding='utf-8') #新建一个以小说名称命名的TXT

  12. q = 1

  13. for url in urls:
  14.     lj = session.get(url)
  15.     nr = lj.html.find('#content',first=True)#获得章节内容
  16.     zj = lj.html.find('#center > div.title > h1',first=True)#获得章节名称
  17.     print("正在下载{},还剩下{}章".format(zj.text[4:],s-q))
  18.     file.write(zj.text[4:]+'\n\n'+nr.text+'\n\n')#写入TXT
  19.     q += 1
  20.     time.sleep(1)

  21. file.close()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-1 02:24

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表