设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 技术交流 › Python交流 › 爬取正文为空！！

发新帖

查看: 1605|回复: 9

[已解决]爬取正文为空！！

发表于 2019-8-26 16:10:56 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

看了一段时间书，尝试着也来爬网络小说，

小说地址是：https://www.zhuishubang.com/131036/54103552.html

能把首页的标题都爬取到，正文都爬取不到。是“获取章节”里的那个地方出错了？

from bs4 import BeautifulSoup
import requests, sys
class download(object):
def __init__(self):
self.server_url = 'http://www.zhuishubang.com'
self.target_url = 'http://www.zhuishubang.com/131036/'
self.names = []
self.urls = []
self.nums = 0
"""
获取下载的链接
获取目录
"""
def download_url(self):
req = requests.get(url=self.target_url)
html = req.text.encode("latin1").decode("gbk")
bf = BeautifulSoup(html, 'lxml')
texts = bf.find_all('div', 'chapterCon')
bf_a = BeautifulSoup(str(texts), 'lxml')
a = bf_a.find_all('a')
self.nums = len(a)
for i in a:
self.names.append(i.string)
self.urls.append(self.server_url + i.get('href'))
"""
获取每一章节的内容
"""
def download_content(self, target_url):
req = requests.get(url=target_url)
html = req.text.encode("latin1").decode("gbk")
bf = BeautifulSoup(html, 'lxml')
texts = bf.find_all('div', class_='articleCon')
bf_div = BeautifulSoup(str(texts), 'lxml')
div = bf_div.find_all('div')
txt = ''
for i in div:
if i.string is not None:
txt = txt + i.string + '\n\n'
return txt
def writer(self, name, path, text):
write_flag = True
with open(path, 'a', encoding='utf-8') as f:
f.write(name + '\n')
f.writelines(text)
f.write('\n\n')
if __name__ == '__main__':
dl = download()
dl.download_url()
print("开始下载")
for i in range(dl.nums):
dl.writer(dl.names[i], '全球制造.txt', dl.download_content(dl.urls[i]))
sys.stdout.write("已下载：%.3f%%" % float(i / dl.nums) + '\r')
sys.stdout.flush
print('已下载完成')

复制代码

最佳答案

月排行榜 / 总排行榜

Jery_wang09

2019-8-27 14:57:32

好像找到问题原因了：

for i in div:
if i.string is not None: ---这一句 i.string始终都是None
txt = txt + i.string + '\n\n'

复制代码

跳转到最佳答案楼层

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复

使用道具举报

发表于 2019-8-26 17:02:40 | 显示全部楼层

headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"}
req = requests.get(url=self.target_url,headers=headers)
texts = bf.find_all('div',attrs={'class':'chapterList'})

复制代码

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-27 09:02:32 | 显示全部楼层

同意楼上

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-27 14:57:32 | 显示全部楼层本楼为最佳答案

这个最佳答案由 Jery_wang09 给出，感谢 Jery_wang09 的回答。

单击隐藏图章

好像找到问题原因了：

for i in div:
if i.string is not None: ---这一句 i.string始终都是None
txt = txt + i.string + '\n\n'

复制代码

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-27 14:58:49 | 显示全部楼层

请问 i.string 是个什么用法？

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-27 15:21:57 | 显示全部楼层

把上面那一句改成这样，可以写一点章节内容进去：

if str(i) is not None:
txt = txt + str(i) + '\n\n'

复制代码

i.string ---这个是什么用法呢？能帮忙解释下吗

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

楼主| 发表于 2019-8-27 15:49:47 | 显示全部楼层

Jery_wang09 发表于 2019-8-27 15:21
把上面那一句改成这样，可以写一点章节内容进去：

防止有空值，所以想把空值不抓取。

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-27 16:27:35 | 显示全部楼层

seaman_w 发表于 2019-8-27 15:49
防止有空值，所以想把空值不抓取。

i.string ---这个用法怎么来的？有什么出处吗

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-27 16:31:18 | 显示全部楼层

Jery_wang09 发表于 2019-8-27 16:27
i.string ---这个用法怎么来的？有什么出处吗

你可以查看bs4文档

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发表于 2019-8-29 09:54:39 | 显示全部楼层

塔利班发表于 2019-8-27 16:31
你可以查看bs4文档

看到了，多谢！

想知道小甲鱼最近在做啥？请访问 -> ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-27 14:58

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表