爬小说时遇到问题求助

罗同学 · 发表于 2018-10-20 12:01:18

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由罗同学于 2018-10-20 12:03 编辑

最近在图书馆看了马伯庸的四海鲸骑、图书馆只有第一部、第二部网上找不到资源、在线能看的网站也只有这一个、就写了个爬虫爬下来、但是发现有的章节能爬到全文、有的章节只能爬一部分内容，看网站的代码都是一样的、在下愚钝没有发现问题所在，请各位大神帮忙。另外每一章正文前面还会有一些别的字也没有找到去掉的办法。。。
请运行前在同目录下创建“四海鲸骑”文件夹。为了方便各位大神测试。代码已经修改成不用输入任何参数，运行即可下载前三章，第二章就会出现少内容的问题。而且每次出现问题的章节都是固定的、请各位大神看看

小说连接：http://www.jjwxc.net/onebook.php?novelid=2872142

代码如下：

import requests
from bs4 import BeautifulSoup as bs
import lxml
import os, time
def open_url(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
res = requests.get(url, headers=headers)
# with open('res.txt','w',encoding='utf-8') as f :
# f.write(res)
return res
def get_txt(number, begin):
i = 1
for page in range(111, 114): #小说第二部代码的连接编码从111开始，到175，本段代码只下载前三章，第二章就会出现问题
url = 'http://www.jjwxc.net/onebook.php?novelid=2872142&chapterid=%d' % page
print(url)
res = open_url(url)
soup = bs(res.content, 'lxml')
#title = soup.find(align="center").get_text()
#print(title)
text = soup.find('div',class_="noveltext").get_text('\n')
file = open('第%03d章.txt' % i, 'w', encoding='utf-8')
#file.write(title + '\n')
file.write(text)
file.close()
time.sleep(3)
i += 1
if __name__ == '__main__':
os.chdir('四海鲸骑')
i = 1
begin = 111
get_txt(i, begin)

复制代码

每章前面出现的乱码如下图：不知道是不是取的标签有问题，也一并求教
QQ截图20181020120212.jpg

wongyusing · 发表于 2018-10-20 12:10:57

你用bs4的strings方法啊，不要用find就好了，现在在外面，回来再看一下吧

wongyusing · 发表于 2018-10-20 12:12:20

你可以看一下我倒数第二篇帖子，gitbook 上有教你怎么用

wongyusing · 发表于 2018-10-20 13:17:24

get_txt函数改为

def get_content(url,req_start,req_end,items):
response = get_response(url)
# 把获取到的文本信息用html的解析器解析
soup = bs(response.text, 'html.parser')
# 通过传入的解析式解析小说正文，这里的写法最好用肉眼观察
# 这里有两个解析式，是因为获取一大段内容需要开始和结束标记
content = soup.find(req_start,class_=req_end).strings
# 把书名、章节名、小说正文内容传入writeFile函数进行保存
with open(book_name + '.txt','a',encoding='utf-8')as txt_file:
#设置文件编码，避免写入时乱码
# 每一次写入章节名时进行换行
txt_file.write('\n'+title+'\n')
for line in content:
#content是一个生成器，采用for循环逐次写入文件
txt_file.write(line)
print(f'{ title } 写入到{ book_name }.txt 完成')

复制代码

wongyusing · 发表于 2018-10-20 13:19:47

主要是解析哪里，
在解析正文时采取'html.parser'而不是lxml
我看了一下这个小说网站，你说的格式采取列表的形式索引的方式解决一下就好了。
以第一个章节为例：
前4个内容不要，取后面的即可

罗同学 · 发表于 2018-10-20 13:41:39

wongyusing 发表于 2018-10-20 13:19
主要是解析哪里，
在解析正文时采取'html.parser'而不是lxml
我看了一下这个小说网站，你说的格式采取 ...

刚试了一下、html.parser解析出来的都是乱码了。。。

罗同学 · 发表于 2018-10-20 14:02:49

wongyusing 发表于 2018-10-20 12:12
你可以看一下我倒数第二篇帖子，gitbook 上有教你怎么用

看了您的帖子、看懂了、也改用了strings的方法、但是还是第二章会缺失一部分内容的

wongyusing · 发表于 2018-10-20 14:32:05

罗同学发表于 2018-10-20 13:41
刚试了一下、html.parser解析出来的都是乱码了。。。

这个网站是gbk编码，用bs4会缺斤短两。
用pq解析吧。解析式是一样的。
语法上稍微不同

罗同学 · 发表于 2018-10-20 19:17:12

wongyusing 发表于 2018-10-20 14:32
这个网站是gbk编码，用bs4会缺斤短两。
用pq解析吧。解析式是一样的。
语法上稍微不同

虽然不知道pq是什么、bs也没有用明白、但还是谢谢

账号		自动登录	找回密码
密码			立即注册