要爬取的小说网站一部分是正常的,有一部分变成了乱码
要爬取的小说网站网页源代码一部分是正常的,有一部分变成了乱码,这种是反爬吗?要怎么解决? 是怎样的乱码? isdkz 发表于 2023-2-13 15:30是怎样的乱码?
文字变成了这个 胀 andenumerate 发表于 2023-2-13 15:33
文字变成了这个 胀
应该是做了简单的反爬,这个是把他变成了 unicode 编码,提取 &#x 和 ; 之间的内容再转回文字就行了,
示例代码:
import re
pattern = re.compile('&#x(\w*?);')
s = '你好'
c_lst = pattern.findall(s)
print(''.join(map(chr, map(lambda x: int(x, 16), c_lst))))
isdkz 发表于 2023-2-13 15:42
应该是做了简单的反爬,这个是把他变成了 unicode 编码,提取 &#x 和 ; 之间的内容再转回文字就行了,
...
感谢
页:
[1]