andenumerate 发表于 2023-2-13 15:26:09

要爬取的小说网站一部分是正常的,有一部分变成了乱码

要爬取的小说网站网页源代码一部分是正常的,有一部分变成了乱码,这种是反爬吗?要怎么解决?

isdkz 发表于 2023-2-13 15:30:59

是怎样的乱码?

andenumerate 发表于 2023-2-13 15:33:06

isdkz 发表于 2023-2-13 15:30
是怎样的乱码?

文字变成了这个 胀

isdkz 发表于 2023-2-13 15:42:39

andenumerate 发表于 2023-2-13 15:33
文字变成了这个 胀

应该是做了简单的反爬,这个是把他变成了 unicode 编码,提取 &#x 和 ; 之间的内容再转回文字就行了,

示例代码:
import re

pattern = re.compile('&#x(\w*?);')
s = '你好'
c_lst = pattern.findall(s)
print(''.join(map(chr, map(lambda x: int(x, 16), c_lst))))

andenumerate 发表于 2023-2-13 15:46:42

isdkz 发表于 2023-2-13 15:42
应该是做了简单的反爬,这个是把他变成了 unicode 编码,提取 &#x 和 ; 之间的内容再转回文字就行了,
...

感谢
页: [1]
查看完整版本: 要爬取的小说网站一部分是正常的,有一部分变成了乱码