鱼C论坛

 找回密码
 立即注册
查看: 2226|回复: 4

求大哥帮忙解决一下

[复制链接]
发表于 2023-2-21 11:37:10 From FishC Mobile | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
要抓取的小说内容,在网页源代码中变成了大小写英文和数字和加号的编码,而且返回状态码变成了304重定向,求大哥教一下解决思路
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-2-21 11:50:56 | 显示全部楼层
方便发一下网址吗?听你的表述完全想象不出来是怎样的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-2-21 12:05:08 From FishC Mobile | 显示全部楼层
isdkz 发表于 2023-2-21 11:50
方便发一下网址吗?听你的表述完全想象不出来是怎样的

不方便在这发,因为那个网站是别人发的,练手的网站打开后才知道是个刘备网站
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-2-21 12:11:14 | 显示全部楼层
andenumerate 发表于 2023-2-21 12:05
不方便在这发,因为那个网站是别人发的,练手的网站打开后才知道是个刘备网站

听你说的大小写英文和数字和加号的编码,盲猜是 base64编码,base64编码的解码也挺方便的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-2-21 14:35:59 | 显示全部楼层
如果你要从网页中抓取的小说内容被编码成大小写英文、数字和加号等字符,那么可能是采用了一种编码方式,比如Base64编码或者其他编码方式。你可以使用Python中的相应库对这种编码进行解码。

对于状态码变成了304重定向,这通常意味着你请求的资源已经被缓存,服务器直接返回了缓存的内容,而没有返回实际的资源。如果你需要获取最新的内容,你可以尝试在请求中添加一些参数,比如时间戳等,以避免缓存。

以下是使用Python进行解码的示例代码:
import base64

encoded_str = "SGVsbG8gV29ybGQh"  # 编码后的字符串
decoded_str = base64.b64decode(encoded_str).decode('utf-8')  # 解码
print(decoded_str)
如果你要解码其他编码方式的字符串,你可以使用Python的相应库进行解码,比如:

对于URL编码的字符串,可以使用urllib.parse.unquote方法进行解码。
对于HTML实体编码的字符串,可以使用html.unescape方法进行解码。
对于其他编码方式的字符串,可以参考相应的解码方法进行解码。
希望这些信息对你有所帮助!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-24 13:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表