[已解决]要爬取的小说网站一部分是正常的，有一部分变成了乱码

andenumerate · 发表于 2023-2-13 15:26:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

要爬取的小说网站网页源代码一部分是正常的，有一部分变成了乱码，这种是反爬吗？要怎么解决？

最佳答案

月排行榜 / 总排行榜

isdkz

2023-2-13 15:42:39

andenumerate 发表于 2023-2-13 15:33
文字变成了这个 胀

应该是做了简单的反爬，这个是把他变成了 unicode 编码，提取 &#x 和 ; 之间的内容再转回文字就行了，

示例代码：

import re

pattern = re.compile('&#x(\w*?);')

s = '你好'

c_lst = pattern.findall(s)

print(''.join(map(chr, map(lambda x: int(x, 16), c_lst))))
复制代码

跳转到最佳答案楼层

isdkz · 发表于 2023-2-13 15:30:59

是怎样的乱码？

andenumerate · 发表于 2023-2-13 15:33:06

isdkz 发表于 2023-2-13 15:30
是怎样的乱码？

文字变成了这个 胀

isdkz · 发表于 2023-2-13 15:42:39

andenumerate 发表于 2023-2-13 15:33
文字变成了这个 胀

应该是做了简单的反爬，这个是把他变成了 unicode 编码，提取 &#x 和 ; 之间的内容再转回文字就行了，

示例代码：

import re

pattern = re.compile('&#x(\w*?);')

s = '你好'

c_lst = pattern.findall(s)

print(''.join(map(chr, map(lambda x: int(x, 16), c_lst))))
复制代码

andenumerate · 发表于 2023-2-13 15:46:42

isdkz 发表于 2023-2-13 15:42
应该是做了简单的反爬，这个是把他变成了 unicode 编码，提取 &#x 和 ; 之间的内容再转回文字就行了，
...

感谢

账号		自动登录	找回密码
密码			立即注册

[已解决]要爬取的小说网站一部分是正常的，有一部分变成了乱码

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块