鱼C论坛

 找回密码
 立即注册
查看: 4225|回复: 28

[作品展示] 练手作品鬼吹灯系列小说批量下载

[复制链接]
发表于 2020-1-3 11:01:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 eachill 于 2020-1-3 11:01 编辑

之前看到一个鱼油写了个下载单本小说的脚本(自制简单的爬虫,爬取一本小说https://fishc.com.cn/thread-152421-1-1.html(出处: 鱼C论坛)),给我带来不少收获。消化了一下,写了一个批量下载一整套。
因为调试的时候请求次数太多太快被关了一段时间小黑屋,所以我在每一章下载完后都等一秒钟再下载下一章,下载完一本等10秒再下载下一本。
主要用到requests和beautifulsoup两个库去爬数据,time库来计时和等待

游客,如果您要查看本帖隐藏内容请回复


贴一下运行的结果:
微信图片_20200103105329.png

微信图片_20200103105341.png

微信图片_20200103105350.png

p.s.有兴趣的话可以把代码改改,变成可以input搜索其他书籍哦~

p.s.s.图2可以看到,引子之后下载第九章而不是第一章,因为该书籍目录页是先放推荐章节再放全文章节,而两个章节是在同属一个父系的标签内,我的水平还不能绕过上面的带有相同标签的非我想要的内容,这个如果有大佬可以给我指教一下就更好了~~

分享不易,来白嫖我吧~

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
Yvonne! + 5 + 5 + 3 鱼C有你更精彩^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-3 18:15:40 | 显示全部楼层
感谢楼主热心分享,喜欢鬼吹灯这部小说!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-5 23:11:42 | 显示全部楼层
谢谢大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-6 10:43:53 | 显示全部楼层
感谢楼主,复制代码运行提示Traceback (most recent call last):
  File "E:\学习py资料\爬虫1爬图.py", line 4, in <module>
    from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'
>>> 是怎么回事啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-1-6 14:11:17 | 显示全部楼层
还有苹果 发表于 2020-1-6 10:43
感谢楼主,复制代码运行提示Traceback (most recent call last):
  File "E:\学习py资料\爬虫1爬图.py", l ...

你没有装bs4这个库
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-6 18:04:25 From FishC Mobile | 显示全部楼层
看看哈
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-6 21:20:49 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-1-6 22:12:17 | 显示全部楼层
还有苹果 发表于 2020-1-6 10:43
感谢楼主,复制代码运行提示Traceback (most recent call last):
  File "E:\学习py资料\爬虫1爬图.py", l ...

安装个bs4模块:
python bs4.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 15:17:23 | 显示全部楼层
学一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 15:45:11 | 显示全部楼层
看看吧 大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 16:53:07 | 显示全部楼层
Yvonne! 发表于 2020-1-6 22:12
安装个bs4模块:

[img][/img]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 16:56:26 | 显示全部楼层
Yvonne! 发表于 2020-1-6 22:12
安装个bs4模块:

我这个是不是权限有问题
ecbb0ffe5635f1edb4def57791cf1e3.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-1-7 17:03:47 | 显示全部楼层
还有苹果 发表于 2020-1-7 16:56
我这个是不是权限有问题

需要先设置pip和python为环境变量,才能直接在命令提示符里面输入这个命令,否则得去到你pip包所在的文件夹使用这个命令。我在论坛找到下面的帖子,你可以参考一下

https://fishc.com.cn/forum.php?mod=viewthread&tid=134569&highlight=%BB%B7%BE%B3%B1%E4%C1%BF%2Bpython
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 17:28:23 | 显示全部楼层
新人进来膜拜下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 18:34:04 | 显示全部楼层
eachill 发表于 2020-1-7 17:03
需要先设置pip和python为环境变量,才能直接在命令提示符里面输入这个命令,否则得去到你pip包所在的文件 ...

我看那个文章,觉得说的还不够明确,自己百度了好久总于解决了!1是重新设置下系统的环境变量(C:\Users\Administrator\AppData\Local\Programs\Python\Python37\Scripts);按照上面步骤重新设置环境变量发现还是不行,最后发现是需要(打开或关闭Windows功能”,勾上“telnet客户端”,确定就可以正常使用telnet命令了。)最后总于可以用了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 23:13:14 | 显示全部楼层

Traceback (most recent call last):
  File "E:/学习/python/git_workspace/learning.py", line 84, in <module>
    main()
  File "E:/学习/python/git_workspace/learning.py", line 79, in main
    get_text(get_book_list(headers), headers)
  File "E:/学习/python/git_workspace/learning.py", line 18, in get_book_list
    soup = BeautifulSoup(response.content, 'lxml')
  File "C:\Users\Administrator\AppData\Roaming\Python\Python37\site-packages\bs4\__init__.py", line 228, in __init__
    % ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-7 23:16:20 | 显示全部楼层
你真棒
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-8 10:53:35 | 显示全部楼层
Yvonne! 发表于 2020-1-6 22:12
安装个bs4模块:

今天在pychorm试了下楼主代码,提示Traceback (most recent call last):
  File "E:/学习py资料/爬小说鬼吹灯.py", line 4, in <module>
    from bs4 import BeautifulSoup
ModuleNotFoundError: No module named 'bs4'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-8 10:56:09 | 显示全部楼层
还有苹果 发表于 2020-1-8 10:53
今天在pychorm试了下楼主代码,提示Traceback (most recent call last):
  File "E:/学习py资料/爬小说 ...

嗯,刚刚百度了,安装了bs4模块了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-1-8 11:13:58 | 显示全部楼层
吃u下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 07:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表