|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 wyft5t5 于 2019-8-12 22:10 编辑
1、urllib —— 这其实是一个包,里边有四个模块,只有一个比较常用,安装方法 pip install urllib
2、下边是编码举例:
——————————————————————————————————————————————————————————
import urllib.request as a # 导入这个比较常用的模块,模块里就一个方法(函数)比较常用
b=a.urlopen("https://fishc.com.cn/forum.php")#通过这个方法打开,读取到网页路径,实现对目标url的访问
c=b.read()#读取网页的内容,此时读取到的网页是以utf-8编码的bytes对象,一般看不懂
print (c)
print (type(c))#此时格式:<class 'bytes'>
d=c.decode("utf-8","ignore")
# 将其解码,变成unicode格式的编码,我们可以看懂
# 这里有一个需要注意的问题很多网页的编码不是utf-8的,使用ignore可以忽略其他的编码格式
# 比如我们这个网页的编码就是 charset=gbk,此时我们可以看到网页能打印出来,但是所有的中文都变成了乱码
# 所以我们这个定义的正确方法是d=c.decode("gbk","ignore")
# 注意:不能写成 d=c.decode("utf-8","gbk","ignore") ,"utf-8"和"gbk"不能同时使用
print (d)
print (type(d))#此时格式:<class 'str'> |
|