一个爬取小说的爬虫....

fre · 发表于 2015-8-12 23:43:27

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 fre 于 2015-8-15 08:47 编辑

编码问题已经解决.现在基本这个站的小说都可以抓取了.
这样这个爬虫还是有点用处了我喜欢看恐怖小说这个站的恐怖小说还是挺多挺全的..
而且站点本身没有提供txt下载..嘿嘿...
可以完整的下载了看咯..

抓取的网址 http://www.kanunu8.com/

down_book .rar (1.23 KB, 下载次数: 29)

==================================================

  首先声明..这个爬虫只能看看..基本没法实际应用...因为只能爬去极少部分小说
:mad:  真是折腾啊...
怪自己选了个垃圾站...各种规则都是乱的..没有统一的规则..
只是刚好这个站排在我这几天看的小说的百度搜索结果第一位..才拿这个站来练练手的..
然后..看着看着..哎哟..书籍详情页,也就是有章节列表的地方..有3种格式哦..
再看着看着..哎哟...书名字那里也有2种字体哦..一种黑色一种红色....书籍详情页面也有2种样式哦..
本身正则就不精通...偏偏还这样..

我已经懒得发现有没有其他的样式了..
有的页面因为个别字符的原因莫名出现不能decode之类..
我也懒得去解决了(其实是不会)..
发出来...让大神们批判下.帮我改进改进思路......顺便求助

然后重点来了..就是遇到的坑..希望有大神能帮助下
主要有2方面,一个是编码
网页的编码声明是gb2312的  但是遇到了很多网页,没法用decode('gb2312')
有的同一篇小说上一个章节还可以下一个章节就不行了有的直接在目录页就报错了.
求问题详解求解决办法
这个问题十分重要..要是解决了..基本就可以爬这个网站所有的小说了..求大神啊...
示例图片如下

另一个坑就是正则表达式.
刚开始的时候我是想着逐行匹配的

　　第五章美女与狼狗<br />

复制代码

类似这样的如果我要匹配出单独这句中文怎么匹配? 我这样写的
\s?(.*?)<br/>? re.DOTALL
\s代表空白字符他就会直接从整个页面的起始位置开始匹配到第一个<br />了多了很多乱七八糟的代码出来..
后面我换成直接匹配<p>标签了.所以没有这个问题了.但是还是想知道这种格式怎么进行匹配

有2个程序一个是整本小说保存成一个txt文本
二个是整本小说保存为一个文件夹,每个章节独立保存为文本(最开始就是想这样的,因为打算自己放到网页上..后来还是觉得保存为txt方便)
文件夹的版本很简陋,只能匹配我最开始研究的那本小说,后面我又添加了其他几样判断,没有加到文件夹版里面

垃圾代码附上...里面打印了很多信息..每个函数都有打印..是作为提示..也是为了出错的时候方便定位到错误位置...
如果要测试抓取效果的抓这一本 http://www.kanunu8.com/book3/6978/
其他的不少都可能出编码错误

down_book.rar (2.4 KB, 下载次数: 9)

附上抓取效果图...

fre · 发表于 2015-8-13 10:26:36

:mad: 大神们还没起床么..

ft3312591 · 发表于 2015-8-13 17:01:53

帮顶。看看爬虫代码~~~

superFeng777 · 发表于 2016-9-14 12:51:44

爬虫能实现的东西还真不少！

账号		自动登录	找回密码
密码			立即注册

[作品展示] 一个爬取小说的爬虫....

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

浏览过的版块