为什么我爬下的网页是乱码？

xyzhu · 发表于 2019-4-3 16:52:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 xyzhu 于 2019-4-3 16:54 编辑

代码如下：

import requests
def get_page(url):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}
res = requests.get(url, headers=headers)
return res
def main():
url = 'https://www.2717.com/ent/meinvtupian/'
res = get_page(url)
with open('page_text.txt', 'w', encoding='utf-8') as file:
file.write(res.text)
if __name__ == '__main__':
main()

复制代码

page_text.txt里的中文是乱码请问是哪的原因？
<a  title="ÆæÎÅòìêÂ">ÆæÎÅòìêÂ</a>
<a  title="¿Ö2àí¼Æ¬">¿Ö2àí¼Æ¬</a>
<a  title="Î′½aÖ®ÃÕ">Î′½aÖ®ÃÕ</a>
<a  title="ÆæÎÅí¼Æ¬">ÆæÎÅí¼Æ¬</a>

幽梦三影 · 发表于 2019-4-3 16:54:19

file.write(res.content.decode())

Pax · 发表于 2019-4-3 17:00:40

得看看你打开的URL是什么编码，你写入TXT直接给他指定了utf8，如果打开的URL并非UTF8写入的是utf8编码是没有转码的所以会乱码

Stubborn · 发表于 2019-4-3 17:02:09

res = requests.get(url, headers=headers)
return res.text

复制代码

泡芙小王子 · 发表于 2019-4-3 17:44:15

编码格式不一样

wongyusing · 发表于 2019-4-3 18:37:05

with open('page_text.txt', 'w', encoding='utf-8') as file:
file.write(res.text)

复制代码

改成

with open('page_text.txt', 'w', encoding='gbk') as file:
file.write(res.text)

复制代码

xyzhu · 发表于 2019-4-4 09:42:38

wongyusing 发表于 2019-4-3 18:37
改成

改后运行报错
file.write(res.text)
UnicodeEncodeError: 'gbk' codec can't encode character '\xc3' in position 255: illegal multibyte sequence

xyzhu · 发表于 2019-4-4 09:48:03

幽梦三影发表于 2019-4-3 16:54
file.write(res.content.decode())

运行和报错
file.write(res.content.decode())
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 251: invalid continuation byte

xyzhu · 发表于 2019-4-4 09:55:48

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>ÃàÅ®í¼Æ¬_DÔ¸DÃàÅ®_ÃàÅ®D′Õæ_ÃàÅ®ÕÕÆ¬_2717í¼Æ¬′óè«</title>

网页开头是这样的，我试了encoding = ‘gb2312’ 也不行不知道0xc3是什么鬼东西

xyzhu · 发表于 2019-4-4 11:00:50

本帖最后由 xyzhu 于 2019-4-4 11:02 编辑

解决了

百度了一下网页编码问题终于找到解决方法

res.encoding = 'GBK'
print(res.text)
with open('girl_page_text.txt', 'w', encoding='GBK') as file:
file.write(res.text)

复制代码

账号		自动登录	找回密码
密码			立即注册

为什么我爬下的网页是乱码？

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块