要爬取的小说网站一部分是正常的，有一部分变成了乱码,Python交流,编程语言专区,鱼C论坛

andenumerate 发表于 2023-2-13 15:26:09

要爬取的小说网站一部分是正常的，有一部分变成了乱码

要爬取的小说网站网页源代码一部分是正常的，有一部分变成了乱码，这种是反爬吗？要怎么解决？

isdkz 发表于 2023-2-13 15:30:59

是怎样的乱码？

andenumerate 发表于 2023-2-13 15:33:06

isdkz 发表于 2023-2-13 15:30
是怎样的乱码？

文字变成了这个 胀

isdkz 发表于 2023-2-13 15:42:39

andenumerate 发表于 2023-2-13 15:33
文字变成了这个 胀

应该是做了简单的反爬，这个是把他变成了 unicode 编码，提取 &#x 和 ; 之间的内容再转回文字就行了，

示例代码：
import re

pattern = re.compile('&#x(\w*?);')
s = '你好'
c_lst = pattern.findall(s)
print(''.join(map(chr, map(lambda x: int(x, 16), c_lst))))

andenumerate 发表于 2023-2-13 15:46:42

isdkz 发表于 2023-2-13 15:42
应该是做了简单的反爬，这个是把他变成了 unicode 编码，提取 &#x 和 ; 之间的内容再转回文字就行了，
...

感谢

页: [1]

鱼C论坛's Archiver

要爬取的小说网站一部分是正常的，有一部分变成了乱码