鱼C论坛

 找回密码
 立即注册
查看: 2976|回复: 3

[作品展示] 下载小说的爬虫---改进版

[复制链接]
发表于 2015-8-13 15:51:43 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 fre 于 2015-8-15 08:54 编辑

换了一个小说站.小说多 新 更新也快 规则也清晰 试着下了好几本 也没有遇到编码问题...
总算是能用了..


纯为技术交流...因为小说网站本身就自带了全本小说下载的连接

程序在此

小说网站为 www.piaotian.net

8.15:之前的程序抓取的txt段落间距太大.修改了下.现在正常了
down_book.rar (3.27 KB, 下载次数: 39)

包含3个py程序
第一个 down_book(piaotian).py
遍历所有章节,保存为单个txt文件
第二个 down_book 保存文件夹版.py
遍历所有章节,每单个章节保存为一个txt文本 整部小说保存为文件夹
这个 还是有点用的..毕竟那里没提供按章节的txt下载

这2个程序 必须传入 小说章节目录的网址
类似 http://www.piaotian.net/html/5/5952/index.html 这样的

第三个 down_book (杰奇).py
是根据杰奇CMS自带的txt下载方式. 匹配书籍序号 然后直接利用urlretrieve()方法去下载回来
不知道是因为线程还是什么的问题 下载很慢..还没研究过这方面.以后再进行改进..
这个程序传入小说首页或者目录页都可以

下一步 打算做一个 带搜索的功能的程序...输入小说名字 自动搜索 下载的..
然后再用tkinter或者pyqt 做成图形程序然后打包成exe的...集成阅读 下载 啥的...
..好像想的有点远了..

程序演示截图(文件夹版)
文件夹1.jpg

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2015-8-13 15:53:33 | 显示全部楼层
除了练手  好像也并没有什么卵用....
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-8-13 16:17:56 | 显示全部楼层
前排支持
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-4-7 21:59:50 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-3 07:55

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表