[已解决]关于Python爬虫保存全本小说的问题

wongyusing · 发表于 2017-11-7 13:14:52

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
import re
def url_open(url):#网页打开函数，以防被禁
req = urllib.request.Request(url)
req.add_header('User-Agent',"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36")
response = urllib.request.urlopen(url)
html = response.read()
return html
def get_url(url):#获得章节数
html = url_open(url).decode('gbk')
reg = r'<a href="/cang/(.*?).html">.*?</a>'
html = re.findall(reg, html)
return html
def txt_book(chapter):#正文函数
html = url_open(chapter).decode('gbk')
reg = r'<div class="nr_con">(.*?)<div class="syz">'
txtbook = re.findall(reg, html, re.S)
print(txtbook)
return txtbook
def save_book(folder,getbook):#保存正文函数
os.mknod("cang.txt")
file = open("cang.txt", 'w')
file.writelines(getbook)#个人感觉这里应该是少了个参数，但找不到该用什么来保存全本小说。
file.close()
def down_txt(folder='txtbook',page=1):#这是主函数
os.mkdir(folder)
os.chdir(folder)
url = 'http://www.gulongwang.com/cang/'
txt_num = get_url(url)#获得章节数
i=0
while True:
i += 1
if i>int(len(txt_num)):#如果i小于章节长度，则继续运行
for a in txt_num:
print(a)
chapter = url + a +'.html'#拼接小说正文url
print(chapter)#打印小说url，测试程序
getbook = txt_book(chapter)
save_book(folder, getbook)
else:
break
if __name__ == "__main__":
down_txt()

复制代码

0. 程序运行后保存的小说只有第一章，我想打印全本小说到一个txt文件中，该如何解决？个人感觉是在save_book(folder,getbook):#保存正文函数，这里出问题了，但没有思路了，求各位大神提点一下需要修改的地方。谢谢

最佳答案

月排行榜 / 总排行榜

Teagle

2017-11-7 15:33:21

wongyusing 发表于 2017-11-7 15:03
其实我一开始的初衷是写一个爬取整个网站的爬虫，想着可以首页加书名的标签，然后加上小说的页码，拼接成 ...

哈哈怎么样我的头像是不是很帅哈哈

我用的bs4这个包专门解析html xml的模块

呃，也没法说太多

推荐你学习一下BeautifulSoup，真的很爽

建议先撸一遍BeautifulSoup的文档

还有，老哥，给我设置最佳吧，设置完就成已经解决了

跳转到最佳答案楼层

wongyusing · 发表于 2017-11-7 13:53:56

import urllib.request
import os
import re
def url_open(url):#网页打开函数，以防被禁
req = urllib.request.Request(url)
req.add_header('User-Agent',"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36")
response = urllib.request.urlopen(url)
html = response.read()
return html
def get_url(url):#获得章节数
html = url_open(url).decode('gbk')
reg = r'<a href="/cang/(.*?).html">.*?</a>'
html = re.findall(reg, html)
return html
def txt_book(chapter):#正文函数
html = url_open(chapter).decode('gbk')
reg = r'<div class="nr_con">(.*?)<div class="syz">'
txtbook = re.findall(reg, html, re.S)
print(txtbook)
return txtbook
def save_book(folder,getbook):#保存正文函数
file = open("cang.txt", 'a')
file.writelines(getbook)#个人感觉这里应该是少了个参数，但找不到该用什么来保存全本小说。
file.close()
def down_txt(folder='txtbook',page=1):#这是主函数
os.mkdir(folder)
os.chdir(folder)
os.mknod("cang.txt")
url = 'http://www.gulongwang.com/cang/'
txt_num = get_url(url)#获得章节数
i=0
while True:
i += 1
if i>int(len(txt_num)):#如果i小于章节长度，则继续运行
for a in txt_num:
print(a)
chapter = url + a +'.html'#拼接小说正文url
print(chapter)#打印小说url，测试程序
getbook = txt_book(chapter)
save_book(folder, getbook)
if __name__ == "__main__":
down_txt()

复制代码

其实改变一下创建txt文件的位置和把保存文本的方法‘a’就好了。
现在要解决运行后停不下来的问题了

wongyusing · 发表于 2017-11-7 14:20:44

import urllib.request
import os
import re
def url_open(url):#网页打开函数，以防被禁
req = urllib.request.Request(url)
req.add_header('User-Agent',"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36")
response = urllib.request.urlopen(url)
html = response.read()
return html
def get_url(url):#获得章节数
html = url_open(url).decode('gbk')
reg = r'<a href="/cang/(.*?).html">.*?</a>'
html = re.findall(reg, html)
return html
def txt_book(chapter):#正文函数
html = url_open(chapter).decode('gbk')
reg = r'<div class="nr_con">(.*?)<div class="syz">'
txtbook = re.findall(reg, html, re.S)
print(txtbook)
return txtbook
def save_book(folder,getbook):#保存正文函数
file = open("cang.txt", 'a')
file.writelines(getbook)#个人感觉这里应该是少了个参数，但找不到该用什么来保存全本小说。
file.close()
def down_txt(folder='txtbook',page=1):#这是主函数
os.mkdir(folder)
os.chdir(folder)
os.mknod("cang.txt")
url = 'http://www.gulongwang.com/cang/'
txt_num = get_url(url)#获得章节数
url_num =int(len(txt_num))
i=0
print(url_num)
while i!=url_num:
for a in txt_num:
print(a)
chapter = url + a +'.html'#拼接小说正文url
print(chapter)#打印小说url，测试程序
getbook = txt_book(chapter)
save_book(folder, getbook)
i += 1

复制代码

成功了，虽然保存下来的小说带有<p>之类的字符，但仍然很开心，毕竟是自己写出来的第一天爬虫，感谢TVB，感谢鱼C工作室，感谢小甲鱼。
现在就去市场买只甲鱼煲汤去
最后一个问题，怎么把帖子弄成已解决啊？？？

Teagle · 发表于 2017-11-7 14:38:00

import urllib.request
import os
import re
def url_open(url):#网页打开函数，以防被禁
req = urllib.request.Request(url)
req.add_header('User-Agent',"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36")
response = urllib.request.urlopen(url)
html = response.read()
return html
def get_url(url):#获得章节数
html = url_open(url).decode('gbk')
reg = r'<a href="/cang/(.*?).html">.*?</a>'
html = re.findall(reg, html)
return html
def txt_book(chapter):#正文函数
html = url_open(chapter).decode('gbk')
reg = r'<div class="nr_con">(.*?)<div class="syz">'
txtbook = re.findall(reg, html, re.S)
print(txtbook)
return txtbook
def save_book(folder,getbook):#保存正文函数
file = open("cang.txt", 'a')
file.writelines(getbook)#个人感觉这里应该是少了个参数，但找不到该用什么来保存全本小说。
file.close()
def down_txt(folder='txtbook',page=1):#这是主函数
os.mkdir(folder)
os.chdir(folder)
os.mknod("cang.txt")
url = 'http://www.gulongwang.com/cang/'
txt_num = get_url(url)#获得章节数
i=0
while True:
i += 1
if i>int(len(txt_num)):#如果i小于章节长度，则继续运行
for a in txt_num:
print(a)
chapter = url + a +'.html'#拼接小说正文url
print(chapter)#打印小说url，测试程序
getbook = txt_book(chapter)
save_book(folder, getbook)
if __name__ == "__main__":
down_txt()

复制代码

你提出的问题是因为，画蛇添足，滥用循环造成的
会重复13次全文写入

还有因为是linux下，所以累死我了

还有你的代码实在是。。。。惨不忍睹

Teagle · 发表于 2017-11-7 14:40:10

分享一下我刚才写的
你的代码，会保留部分标签，并没有提取出来真实的string

import requests,os
from bs4 import BeautifulSoup as Soup
def getUrl(page):
url = 'http://www.gulongwang.com/cang/'
return url+str(page)+'.html'
def getResponse(url):
headers = {'User-Agent':"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"}
response = requests.get(url,headers=headers)
response.encoding = 'gb2312'
#采用网站设置的编码，避免读取时乱码
return response.text
def getContent(html):
soup = Soup(html,'html.parser')
title = soup.find('h1',class_='mulu').contents[-1].string
content = soup.find('div',class_='nr_con').strings
#strings属性返回div标签下所有子标签的string
#content是一个生成器
return title,content
def writeFile(title,content):
with open('苍穹神剑.txt','a',encoding='utf-8')as cang_file:
#设置文件编码，避免写入时乱码
cang_file.write('\n'+title+'\n')
for line in content:
#content是一个生成器，采用for循环逐次写入文件
cang_file.write(line)
print('%s was writed ..'%title)
def main():
##经过观察，所有的章节是1.html-13.html，所以不需要画蛇添足进行匹配
for page in range(1,14):
url = getUrl(page)
html = getResponse(url)
title,content = getContent(html)
writeFile(title,content)
if __name__=='__main__':
main()

复制代码

爬取之前，好好观察规律，那样会省去很多不必要的过程，还有re太重，没必要的时候就别用了

Teagle · 发表于 2017-11-7 14:40:49

Teagle 发表于 2017-11-7 14:40
分享一下我刚才写的
你的代码，会保留部分标签，并没有提取出来真实的string

我是在win下写的

SixPy · 发表于 2017-11-7 14:55:15

import requests as req
url = 'http://www.gulongwang.com/cang/'
for i in range(1, 14):
filename = '%d.html'%i
rsp = req.get(url+'/'+filename)
if rsp.status_code==200:
with open(filename, 'wb')as w:
sz = w.write(rsp.content)
print('已下载[%s],%d 字节。'%(filename,sz))
else:
print(i,rsp.status_code)

复制代码

已下载[1.html],39147 字节。
已下载[2.html],37275 字节。
已下载[3.html],42573 字节。
已下载[4.html],31281 字节。
已下载[5.html],58785 字节。
已下载[6.html],50375 字节。
已下载[7.html],45613 字节。
已下载[8.html],37783 字节。
已下载[9.html],50279 字节。
已下载[10.html],35622 字节。
已下载[11.html],46428 字节。
已下载[12.html],51919 字节。
已下载[13.html],50163 字节。

复制代码

wongyusing · 发表于 2017-11-7 15:03:52

Teagle 发表于 2017-11-7 14:40
我是在win下写的

其实我一开始的初衷是写一个爬取整个网站的爬虫，想着可以首页加书名的标签，然后加上小说的页码，拼接成一个url，然后获取正文，保存。
新人上路，心太大，所以才会用那么多正则啊。
然后发现心太大，会导致一事无成的，所以就改变思路，先爬一本小说来练手啊。
求轻打，新人的第一个作品
对了，怎么去除正文中那些<p>之类的便签啊？？我看了你的代码，找不到你去除便签的代码？
最后一句，你的头像搞到我要拿本书来挡住。

wongyusing · 发表于 2017-11-7 15:09:16

SixPy 发表于 2017-11-7 14:55

我是想把所有正文保存到一个txt文件中啊，姐姐
不是下载网页

Teagle · 发表于 2017-11-7 15:33:21

这个最佳答案由 Teagle 给出，感谢 Teagle 的回答。

单击隐藏图章

wongyusing 发表于 2017-11-7 15:03
其实我一开始的初衷是写一个爬取整个网站的爬虫，想着可以首页加书名的标签，然后加上小说的页码，拼接成 ...

哈哈怎么样我的头像是不是很帅哈哈

我用的bs4这个包专门解析html xml的模块

呃，也没法说太多

推荐你学习一下BeautifulSoup，真的很爽

建议先撸一遍BeautifulSoup的文档

还有，老哥，给我设置最佳吧，设置完就成已经解决了

SixPy · 发表于 2017-11-7 17:42:09

wongyusing 发表于 2017-11-7 15:09
我是想把所有正文保存到一个txt文件中啊，姐姐
不是下载网页

import requests as req
import html
import re
ptn_lb = re.compile(br'<div class="lb">.*?</ul>',re.DOTALL)
ptn_ml = re.compile(r'<a href="/\w+/(\d+).html">([^<]+)</a>')
ptn_nr = re.compile(br'<div class="nr_con">(.*?)</div>',re.DOTALL)
ptn_p = re.compile(br'</?p>')
url = 'http://www.gulongwang.com/cang/'
rsp = req.get(url)
ml = ptn_ml.findall(ptn_lb.findall(rsp.content)[0].decode('gbk'))
for i,filename in ml:
rsp = req.get(url+i+'.html')
if rsp.status_code==200:
nr = ptn_nr.findall(rsp.content)
nr = ptn_p.sub(b'',nr[0]).decode('gbk')
nr = html.unescape(nr)
with open(filename+'.txt', 'w')as w:
sz = w.write(nr)
print('已下载[%s],%d 字。'%(filename,sz))
else:
print('失败:', i, filename, rsp.status_code)

复制代码

账号		自动登录	找回密码
密码			立即注册