馍尔Moer 发表于 2023-4-27 19:54:40

为什么这个爬虫,爬出来的是乱码?帮我在这个ji'c

import requests
url = "https://music.douban.com/top250"
params = {"start":225}
headers= {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
"Cookie": 'll="118178"; bid=xOL938asFC0; __gads=ID=1e173827052fbfae-2237b8b93fdf003f:T=1681947340:RT=1681947340:S=ALNI_MZSeHau4y140HlSeBvzIvluphnqHw; __gpi=UID=00000bfa2e7b79af:T=1681947340:RT=1682033932:S=ALNI_MYHaFlQHLK4MRWstYmbab4hArWLYw; _pk_ref.100001.afe6=%5B%22%22%2C%22%22%2C1682592499%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_id.100001.afe6=7def2797f09e923b.1682592499.1.1682592499.1682592499.; _pk_ses.100001.afe6=*; ap_v=0,6.0; __utma=30149280.2097799149.1681628108.1682033932.1682592499.6; __utmc=30149280; __utmz=30149280.1682592499.6.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; __utmb=30149280.1.10.1682592499',
'Host': 'music.douban.com',
'Referer': 'https://cn.bing.com/',
'sec-ch-ua': '"Chromium";v="112", "Microsoft Edge";v="112", "Not:A-Brand";v="99"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
'Sec-Fetch-Dest': 'document',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-Site': 'cross-site',
'Sec-Fetch-User': '?1',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58'
}

response = requests.get(url=url,params=params,headers=headers)
print(response.text)

isdkz 发表于 2023-4-27 19:54:41

本帖最后由 isdkz 于 2023-4-27 20:34 编辑

把一些多余的请求头删掉吧,特别是 Accept-Encoding

`Accept-Encoding` 是一个 HTTP 请求头,用于告诉服务器客户端(例如浏览器)支持哪些内容编码。内容编码是一种在传输过程中对数据进行压缩的技术,旨在减少传输数据的大小,从而提高加载速度和降低带宽消耗。

在这个例子中,`Accept-Encoding` 请求头的值为 `'gzip, deflate, br'`,表示客户端支持三种不同的压缩格式:

1. `gzip`:一种广泛使用的压缩格式,常用于 Web 传输。它使用 DEFLATE 算法进行压缩,具有较高的压缩率,但解压缩速度相对较慢。

2. `deflate`:另一种使用 DEFLATE 算法的压缩格式,但与 gzip 不同,它不包含额外的文件头和校验信息。因此,deflate 压缩后的数据通常比 gzip 更小,但在解压缩时可能出现问题。

3. `br`:代表 Brotli 压缩格式,是一种较新的压缩算法,专为 Web 传输优化。Brotli 在压缩率和解压缩速度方面表现更优,因此在现代 Web 应用中逐渐取代了 gzip 和 deflate。

当服务器收到带有 `Accept-Encoding` 请求头的请求时,它会根据客户端支持的压缩格式选择一种合适的编码方式对数据进行压缩,然后在响应头中使用 `Content-Encoding` 标明所使用的压缩格式。客户端收到响应后,会根据响应头中的 `Content-Encoding` 值解压数据。

所以你的代码中返回乱码,是因为服务器给你返回了一个压缩包格式的文件,所以你不能用字符编码来解码出文本内容

对你的代码修改如下:
import requests
url = "https://music.douban.com/top250"
params = {"start":225}
headers= {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
"Cookie": 'll="118178"; bid=xOL938asFC0; __gads=ID=1e173827052fbfae-2237b8b93fdf003f:T=1681947340:RT=1681947340:S=ALNI_MZSeHau4y140HlSeBvzIvluphnqHw; __gpi=UID=00000bfa2e7b79af:T=1681947340:RT=1682033932:S=ALNI_MYHaFlQHLK4MRWstYmbab4hArWLYw; _pk_ref.100001.afe6=%5B%22%22%2C%22%22%2C1682592499%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_id.100001.afe6=7def2797f09e923b.1682592499.1.1682592499.1682592499.; _pk_ses.100001.afe6=*; ap_v=0,6.0; __utma=30149280.2097799149.1681628108.1682033932.1682592499.6; __utmc=30149280; __utmz=30149280.1682592499.6.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; __utmb=30149280.1.10.1682592499',
'Host': 'music.douban.com',
'Referer': 'https://cn.bing.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58'
}

response = requests.get(url=url,params=params,headers=headers)
print(response.text)

馍尔Moer 发表于 2023-4-27 19:55:29

帮我在这个基础是上修改一下,谢谢大佬们了

isdkz 发表于 2023-4-27 20:25:20

来了

同舟 发表于 2023-4-28 09:59:28

isdkz 发表于 2023-4-27 19:54
把一些多余的请求头删掉吧,特别是 Accept-Encoding




优秀且很认真{:5_110:}
页: [1]
查看完整版本: 为什么这个爬虫,爬出来的是乱码?帮我在这个ji'c