我爬取一个了网页,里面的中文变成了“\u4e07”这样子的代码,要怎么转成中文?
中文是这样的:爬取后是这样的:
我的代码:
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'}
url = 'https://s.search.bilibili.com/cate/search?main_ver=v3&search_type=video&view_type=hot_rank&order=click©_right=-1&cate_id=17&page=1&pagesize=20&jsonp=jsonp&time_from=20210916&time_to=20210923&callback=jsonCallback_bili_071778551135879053'
res = requests.get(url, headers = headers).text
print(res)
你确定网址是对的?
我打开就是这样的
本帖最后由 suchocolate 于 2021-9-23 22:56 编辑
res = requests.get(url, headers=headers)
res.encoding = 'unicode_escape'
print(res.text)
或
res = requests.get(url, headers=headers).text
print(res.encode('utf-8').decode('unicode_escape'))
或
res = requests.get(url, headers=headers).content
print(res.decode('unicode_escape')) “\u4e07”这种类型的代码叫什么名字呀? 白two 发表于 2021-9-23 22:10
你确定网址是对的?
我打开就是这样的
网址是对的,网址是我在审查元素里的network里的js里找的,我用浏览器打卡也是这样,二楼的方法可以翻译成中文 拽猫的尾巴 发表于 2021-9-24 01:43
“%u4e07”这种类型的代码叫什么名字呀?
unicode
你可以在这里手工尝试转码就知道了。http://tool.chinaz.com/tools/unicode.aspx
页:
[1]