爬虫学习笔记2-----初识爬虫 New！

极品召唤兽 · 发表于 2021-1-25 23:38:30

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由极品召唤兽于 2021-1-25 23:56 编辑

（接上篇）

~~点我返回上文~~

res.content

除了文本内容的下载，爬虫还能下载图片、音频、视频等。我们来看一个下载图片的例子：

下载图片的代码如下

import requests
# 获取图片数据
res = requests.get('https://assets.baydn.com/baydn/public/codetime/xiaobei/info.jpg')
# 以二进制写入的方式打开一个名为 info.jpg 的文件
with open('info.jpg', 'wb') as file:
# 将数据的二进制形式写入文件中
file.write(res.content)

复制代码

可以看出，图片的下载和下载小说的步骤几乎一样。区别在于图片是用二进制写入的方式，将数据的二进制形式写入文件当中，而不是字符串形式。

Tips ：
如果你将图片的 res.content 打印出来，结果是像下面这样的一堆看不懂的乱码：
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\......
上面的乱码其实是图片的二进制编码，当我们用错误的方式打开，比如用文本形式打开，就会出现如上所示的乱码。

res.text 和 res.content 的区别是：res.text 用于文本内容的获取、下载，res.content 用于图片、音频、视频等二进制内容的获取、下载。

代码演练

import requests
# 获取图片数据
res = requests.get('https://assets.baydn.com/baydn/public/codetime/xiaobei/info.jpg')
# 以二进制写入的方式打开一个名为 info.jpg 的文件
with open('info.jpg', 'wb') as file:
# 将数据的二进制形式写入文件中
file.write(res.content)

复制代码

编码的发展史

我们都知道，计算机的底层是二进制。也就是说，计算机只认识 0 和 1。既然如此，计算机是如何展示文字、符号等信息的呢？
聪明的计算机科学家们想到了编码，将数字和文字、符号一一对应即可。比如 0000 对应 a，0001 对应 b，0010 对应 c（举个例子，实际上并不是这样对应的）。
因为英文字母比较少，加上常用的符号等，总共也就 100 多个。计算机科学家们用一个字节中的 7 位（总共 8 位）定义了一套编码，总共 128（2 的 7 次方）个字符，这就是 ASCII 编码。
随着科技的发展，计算机进入了欧洲国家。128 个字符对美国来说是够用的，但欧洲一些国家的语言，比如法语中，字母上方有注音符号，128 个字符就不够用了。因此欧洲国家决定将最后一个闲置的位也利用上，这样欧洲的编码就有 256（2 的 8 次方）个字符了。
但是不同的国家有不同的字母，这就导致前 128 个字符是一样的，后 128 个字符在不同的国家是不一样的。
不久后，计算机便来到了中国。中国的汉字可是有 10 万多个，256 个是远远不够的。中国计算机科学家们便重新定义了一套编码，也就是 GB2312，这套编码包含了 6763 个常用汉字和一些常用符号等。之后为了扩展能显示的汉字内容，还推出了 GBK 等编码标准。
你可能也发现问题了，每个国家都有自己的编码，还都不一样。发封电子邮件给外国人，在他们看来就都是乱码，这可怎么行！
于是，Unicode（统一码）便出现了。Unicode 是一个很大的集合，现在的规模可以容纳 100 多万个符号，并且每个符号的编码都不一样。
但是 Unicode 有个缺点，就是占用字节过多。英文字母本来只需要一个字节就够了，现在为了统一得用 3、4 个字节，很是浪费！因此导致 Unicode 在很长一段时间内无法推广，直到互联网的出现。
聪明的计算机科学家又想到了新的方法，推出了 UTF-8 编码，UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。
UTF-8 即解决了乱码问题，也解决了字节浪费的问题，是现在最常用的编码方式。

res.encoding

res.encoding 就是爬虫获取到数据的编码格式

requests 库会根据内容推测编码格式是什么，然后将 res.encoding 设成推测的格式，在访问 res.text 时使用该格式解码。

当推测的格式错误时，即出现乱码时，就需要我们手动给 res.encoding 赋值成正确的编码。

我们来看下面的例子：

import requests

res = requests.get('https://www.baidu.com')
print(res.text)

输出结果是：

<!DOCTYPE html>
<html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>ç¾åo|ä¸ä¸ï¼ä½ å°±ç￥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus=autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=ç¾åo|ä¸ä¸ class="bg s_btn" autofocus></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>æ°é»</a> <a href=https://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>å°å¾</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>è§é￠</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>è′′å§</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>ç»å½</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">ç»å½</a>');
</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ′å¤äo§å</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>å3äoç¾åo|</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>©2017 Baidu <a href=http://www.baidu.com/duty/>ä½¿ç¨ç¾åo|åå¿èˉ»</a> <a href=http://jianyi.baidu.com/ class=cp-feedback>æè§åé|</a> äo¬ICPèˉ030173å· <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>

我们可以看到类似 æ′å¤äo§å 的乱码，它们其实是中文被错误解码导致的。我们来看看 requests 库推测的编码格式是什么：

import requests
res = requests.get('https://www.baidu.com')
print(res.encoding)
# 输出：ISO-8859-1

复制代码

我们可以看到，requests 库将编码错误地推测成了 ISO-8859-1 格式。国内网站的编码格式一般都是 UTF-8、GBK 或 GB2312。

上述代码中网站的正确编码格式其实是 UTF-8，我们需要手动将编码修改成 UTF-8，便能显示正确的内容了。

代码演练

import requests
res = requests.get('https://www.baidu.com')
res.encoding = 'utf-8'
print(res.text)

复制代码

*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*
*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*

应用总结

1.import requests
# 导入 requests 模块

2.res = requests.get('网址')
#将获取数据储存在res变量中

3.print(res.status_code)
#反馈获取状态信息

4.with open('孔乙己.txt', 'w') as file:
# 以写入的方式打开一个名为孔乙己的 txt 文档
file.write(res.text)
# 将数据的字符串形式写入文件中
#下载文字信息

5.with open('info.jpg', 'wb') as file:
# 以二进制写入的方式打开一个名为 info.jpg 的文件
file.write(res.content)
# 将数据的二进制形式写入文件中
#下载图片信息

6.res.encoding = 'utf-8'
#手动设置编码格式

*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*
*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*

（第一节结束啦）

登录/注册后可看大图

Daniel_Zhang · 发表于 2021-1-25 23:47:23

大佬

页川 · 发表于 2021-1-26 10:16:20

甩手就是一个赞

攸鱼 · 发表于 2021-2-1 10:38:41

厉害

划句顾 · 发表于 2021-5-21 22:22:07

666

pienashuicha · 发表于 2021-5-26 23:36:32

非常感谢分享

hl470459574 · 发表于 2021-5-27 07:05:15

新人初来乍到，学习中啊

龙舞九天 · 发表于 2021-5-29 18:39:00

lixiaoqiang2020 · 发表于 2021-11-24 20:55:06

不错，小伙子很棒呀，哥哥看好你

O2H2O · 发表于 2021-12-3 15:54:43

清晰明了，非常有助于初学者！

hornwong · 发表于 2021-12-5 18:05:59

sampsom · 发表于 2021-12-7 22:33:15

感谢大佬分享，大佬牛逼

tomok · 发表于 2021-12-8 09:47:28

百遍真人 · 发表于 2023-4-17 07:29:33

今日学习+2

账号		自动登录	找回密码
密码			立即注册

[学习笔记] 爬虫学习笔记2-----初识爬虫 New！

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币