鱼C论坛

 找回密码
 立即注册
查看: 1091|回复: 4

[已解决]为什么这个爬虫,爬出来的是乱码?帮我在这个ji'c

[复制链接]
发表于 2023-4-27 19:54:40 | 显示全部楼层 |阅读模式
30鱼币
import requests
url = "https://music.douban.com/top250"
params = {"start":225}
headers  = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
"Cookie": 'll="118178"; bid=xOL938asFC0; __gads=ID=1e173827052fbfae-2237b8b93fdf003f:T=1681947340:RT=1681947340:S=ALNI_MZSeHau4y140HlSeBvzIvluphnqHw; __gpi=UID=00000bfa2e7b79af:T=1681947340:RT=1682033932:S=ALNI_MYHaFlQHLK4MRWstYmbab4hArWLYw; _pk_ref.100001.afe6=%5B%22%22%2C%22%22%2C1682592499%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_id.100001.afe6=7def2797f09e923b.1682592499.1.1682592499.1682592499.; _pk_ses.100001.afe6=*; ap_v=0,6.0; __utma=30149280.2097799149.1681628108.1682033932.1682592499.6; __utmc=30149280; __utmz=30149280.1682592499.6.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; __utmb=30149280.1.10.1682592499',
'Host': 'music.douban.com',
'Referer': 'https://cn.bing.com/',
'sec-ch-ua': '"Chromium";v="112", "Microsoft Edge";v="112", "Not:A-Brand";v="99"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
'Sec-Fetch-Dest': 'document',
'Sec-Fetch-Mode': 'navigate',
'Sec-Fetch-Site': 'cross-site',
'Sec-Fetch-User': '?1',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58'
}

response = requests.get(url=url,params=params,headers=headers)
print(response.text)
最佳答案
2023-4-27 19:54:41
本帖最后由 isdkz 于 2023-4-27 20:34 编辑

把一些多余的请求头删掉吧,特别是 Accept-Encoding

`Accept-Encoding` 是一个 HTTP 请求头,用于告诉服务器客户端(例如浏览器)支持哪些内容编码。内容编码是一种在传输过程中对数据进行压缩的技术,旨在减少传输数据的大小,从而提高加载速度和降低带宽消耗。

在这个例子中,`Accept-Encoding` 请求头的值为 `'gzip, deflate, br'`,表示客户端支持三种不同的压缩格式:

1. `gzip`:一种广泛使用的压缩格式,常用于 Web 传输。它使用 DEFLATE 算法进行压缩,具有较高的压缩率,但解压缩速度相对较慢。

2. `deflate`:另一种使用 DEFLATE 算法的压缩格式,但与 gzip 不同,它不包含额外的文件头和校验信息。因此,deflate 压缩后的数据通常比 gzip 更小,但在解压缩时可能出现问题。

3. `br`:代表 Brotli 压缩格式,是一种较新的压缩算法,专为 Web 传输优化。Brotli 在压缩率和解压缩速度方面表现更优,因此在现代 Web 应用中逐渐取代了 gzip 和 deflate。

当服务器收到带有 `Accept-Encoding` 请求头的请求时,它会根据客户端支持的压缩格式选择一种合适的编码方式对数据进行压缩,然后在响应头中使用 `Content-Encoding` 标明所使用的压缩格式。客户端收到响应后,会根据响应头中的 `Content-Encoding` 值解压数据。


所以你的代码中返回乱码,是因为服务器给你返回了一个压缩包格式的文件,所以你不能用字符编码来解码出文本内容

对你的代码修改如下:
import requests
url = "https://music.douban.com/top250"
params = {"start":225}
headers  = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
"Cookie": 'll="118178"; bid=xOL938asFC0; __gads=ID=1e173827052fbfae-2237b8b93fdf003f:T=1681947340:RT=1681947340:S=ALNI_MZSeHau4y140HlSeBvzIvluphnqHw; __gpi=UID=00000bfa2e7b79af:T=1681947340:RT=1682033932:S=ALNI_MYHaFlQHLK4MRWstYmbab4hArWLYw; _pk_ref.100001.afe6=%5B%22%22%2C%22%22%2C1682592499%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_id.100001.afe6=7def2797f09e923b.1682592499.1.1682592499.1682592499.; _pk_ses.100001.afe6=*; ap_v=0,6.0; __utma=30149280.2097799149.1681628108.1682033932.1682592499.6; __utmc=30149280; __utmz=30149280.1682592499.6.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; __utmb=30149280.1.10.1682592499',
'Host': 'music.douban.com',
'Referer': 'https://cn.bing.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58'
}

response = requests.get(url=url,params=params,headers=headers)
print(response.text)

最佳答案

查看完整内容

把一些多余的请求头删掉吧,特别是 Accept-Encoding 所以你的代码中返回乱码,是因为服务器给你返回了一个压缩包格式的文件,所以你不能用字符编码来解码出文本内容 对你的代码修改如下:
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-27 19:54:41 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2023-4-27 20:34 编辑

把一些多余的请求头删掉吧,特别是 Accept-Encoding

`Accept-Encoding` 是一个 HTTP 请求头,用于告诉服务器客户端(例如浏览器)支持哪些内容编码。内容编码是一种在传输过程中对数据进行压缩的技术,旨在减少传输数据的大小,从而提高加载速度和降低带宽消耗。

在这个例子中,`Accept-Encoding` 请求头的值为 `'gzip, deflate, br'`,表示客户端支持三种不同的压缩格式:

1. `gzip`:一种广泛使用的压缩格式,常用于 Web 传输。它使用 DEFLATE 算法进行压缩,具有较高的压缩率,但解压缩速度相对较慢。

2. `deflate`:另一种使用 DEFLATE 算法的压缩格式,但与 gzip 不同,它不包含额外的文件头和校验信息。因此,deflate 压缩后的数据通常比 gzip 更小,但在解压缩时可能出现问题。

3. `br`:代表 Brotli 压缩格式,是一种较新的压缩算法,专为 Web 传输优化。Brotli 在压缩率和解压缩速度方面表现更优,因此在现代 Web 应用中逐渐取代了 gzip 和 deflate。

当服务器收到带有 `Accept-Encoding` 请求头的请求时,它会根据客户端支持的压缩格式选择一种合适的编码方式对数据进行压缩,然后在响应头中使用 `Content-Encoding` 标明所使用的压缩格式。客户端收到响应后,会根据响应头中的 `Content-Encoding` 值解压数据。


所以你的代码中返回乱码,是因为服务器给你返回了一个压缩包格式的文件,所以你不能用字符编码来解码出文本内容

对你的代码修改如下:
import requests
url = "https://music.douban.com/top250"
params = {"start":225}
headers  = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
"Cookie": 'll="118178"; bid=xOL938asFC0; __gads=ID=1e173827052fbfae-2237b8b93fdf003f:T=1681947340:RT=1681947340:S=ALNI_MZSeHau4y140HlSeBvzIvluphnqHw; __gpi=UID=00000bfa2e7b79af:T=1681947340:RT=1682033932:S=ALNI_MYHaFlQHLK4MRWstYmbab4hArWLYw; _pk_ref.100001.afe6=%5B%22%22%2C%22%22%2C1682592499%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; _pk_id.100001.afe6=7def2797f09e923b.1682592499.1.1682592499.1682592499.; _pk_ses.100001.afe6=*; ap_v=0,6.0; __utma=30149280.2097799149.1681628108.1682033932.1682592499.6; __utmc=30149280; __utmz=30149280.1682592499.6.2.utmcsr=cn.bing.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; __utmb=30149280.1.10.1682592499',
'Host': 'music.douban.com',
'Referer': 'https://cn.bing.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.58'
}

response = requests.get(url=url,params=params,headers=headers)
print(response.text)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2023-4-27 19:55:29 | 显示全部楼层
帮我在这个基础是上修改一下,谢谢大佬们了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-27 20:25:20 | 显示全部楼层
来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-28 09:59:28 | 显示全部楼层
isdkz 发表于 2023-4-27 19:54
把一些多余的请求头删掉吧,特别是 Accept-Encoding

优秀且很认真
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-23 13:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表