鱼C论坛

 找回密码
 立即注册
查看: 5497|回复: 16

[已解决]爬取百度小说时遇到的问题

[复制链接]
发表于 2021-4-19 00:44:57 | 显示全部楼层 |阅读模式
15鱼币
本帖最后由 大马强 于 2021-4-19 00:46 编辑

已经爬取到文本所在点我url,但是却是乱码,用了百度上的方法还是处理不了
代码奉上
  1. # 爬取 https://boxnovel.baidu.com/ 的小说西游记
  2. # 发起请求,拿到页面的html代码
  3. # 从上面的html的源代码中找到不同章节的url
  4. # 对上面的拿到url发起请求去获得数据
  5. # 对数据进行永久化保存
  6. import requests

  7. # 抓包过程中发现 参数 pageNum 的值是变化的 为【1,2,3】
  8. # 使用循环来将本书章节的包全部爬到,发起请求
  9. # https: // novelapi.baidu.com/novelopenapi/legal/content?app_code = wise_novel & sign = 5eebc17759205623c5aa3b4e61bec1df & time = 1618747010621 & book_id = 4306063500 & chapter_id = 11348571

  10. for pagenum in range(1, 4):
  11.     book_url = f"https://boxnovel.baidu.com/boxnovel/wiseapi/chapterList?bookid=4306063500&pageNum={pagenum}&order=asc&site="
  12.     book_html = requests.get(book_url)
  13.     for each in book_html.json()['data']["chapter"]["chapterInfo"]:
  14.         c_id = each["chapter_id"]
  15.         title = each["chapter_title"]  # 取得c_jd
  16.         chapter_url = f"https://novelapi.baidu.com/novelopenapi/legal/content?app_code=wise_novel&sign=5eebc17759205623c5aa3b4e61bec1df&time=1618747010621&book_id=4306063500&chapter_id={c_id}"

  17.         chapter_html = requests.get(chapter_url)
  18.         try:
  19.             text_url = chapter_html.json()['data']['url'] #请求小说文本所在URL
  20.         except:
  21.             PASS
  22.         else:
  23.             text = requests.get(text_url)
  24.             print(text.text)
复制代码

我觉得那个小说的文本应该就在这里,但是我还是无法将它处理,求求大佬指点
百度小说2.png 百度小说1.png
最佳答案
2021-4-19 00:44:58
加你好友了,私下给你说

最佳答案

查看完整内容

加你好友了,私下给你说
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-19 00:44:58 | 显示全部楼层    本楼为最佳答案   
加你好友了,私下给你说
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-19 09:34:08 | 显示全部楼层
你这个网页我在浏览器都打不开,不过我运行了下你的代码,返回的内容二进制里面居然有双引号括号什么的。。。可能是加密了吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-19 09:51:32 | 显示全部楼层
你把网站发一下吧,因为我打开你现在写的代码中的网站就是一团乱码

111.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-19 12:31:05 | 显示全部楼层
qq1151985918 发表于 2021-4-19 09:51
你把网站发一下吧,因为我打开你现在写的代码中的网站就是一团乱码

https://boxnovel.baidu.com/boxno ... 22%3A%22dushu%22%7D
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-19 12:31:55 | 显示全部楼层
yuxijian2020 发表于 2021-4-19 09:34
你这个网页我在浏览器都打不开,不过我运行了下你的代码,返回的内容二进制里面居然有双引号括号什么的。。 ...

我感觉应该是被加密了,但我是跟着视频做的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-19 12:33:03 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-19 12:33:37 | 显示全部楼层
有些东西和上面的不一样了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-19 13:18:41 | 显示全部楼层
大马强 发表于 2021-4-19 12:31
我感觉应该是被加密了,但我是跟着视频做的

本身爬虫的生命周期就很短,你这个小说网站我都登不上去了  怎么分析
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-19 15:21:31 | 显示全部楼层
yuxijian2020 发表于 2021-4-19 13:18
本身爬虫的生命周期就很短,你这个小说网站我都登不上去了  怎么分析

就是百度小说
http://dushu.baidu.com/?data={%22fromaction%22:%22aladdincard%22}&source=aladdincard
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-19 22:48:40 From FishC Mobile | 显示全部楼层
你爬的页面是utf-8编码,不考虑下转码的问题么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-20 00:09:41 | 显示全部楼层
TC_DHL 发表于 2021-4-19 22:48
你爬的页面是utf-8编码,不考虑下转码的问题么

我在其他的地方看到这个方式
  1. # 打印出所请求页面返回的编码方式
  2.     print(response.encoding)
  3.     # response.apparent_encoding是通过内容分析出的编码方式,这里是urf-8
  4.     print(response.apparent_encoding)
  5.     # 转码
  6.     content = response.text.encode(response.encoding).decode(response.apparent_encoding)
复制代码

但我的 response.apparent_encoding 是none 就算我硬生生加入"utf-8"也没用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-20 00:10:15 | 显示全部楼层
大马强 发表于 2021-4-20 00:09
我在其他的地方看到这个方式

但我的 response.apparent_encoding 是none 就算我硬生生加入"utf-8"也没 ...

大佬支支招
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-20 02:40:55 | 显示全部楼层

我也是彩笔... 我试试嗷
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-20 03:28:22 | 显示全部楼层
TC_DHL 发表于 2021-4-20 02:40
我也是彩笔... 我试试嗷

看了下 不会
告辞!!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-4-20 08:52:35 | 显示全部楼层
TC_DHL 发表于 2021-4-20 03:28
看了下 不会
告辞!!!

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-3-19 22:46:48 | 显示全部楼层
一只魈咸鱼 发表于 2021-4-19 00:44
加你好友了,私下给你说

我都忘记我有这个提问了,那就麻烦哥哥了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-22 04:20

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表