鱼C论坛

 找回密码
 立即注册
楼主: 小甲鱼

[作品展示] 一次性解决你所有的编码检测问题

    [复制链接]
发表于 2017-8-8 22:21:23 | 显示全部楼层
这个拓展很有用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-9-12 22:01:09 | 显示全部楼层
本帖最后由 SuperBoy007 于 2017-9-12 22:02 编辑


问下为何审查元素看到的utf-8编码,用chardet模块看到的确实GB2312?
1.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-9-14 11:05:18 | 显示全部楼层
真是屌的不行!厉害厉害!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-8 19:15:10 | 显示全部楼层
gaomengsuijia 发表于 2016-7-20 14:02
>>> file = rq.urlopen("http://www.sina.com")
>>> html = file.read()
>>> chardet.detect(html)
>>> import urllib.request  as rq
>>> file = rq.urlopen("http://www.sina.com")
>>> import chardet
>>> html = file.read()
>>> chardet.detect(html)['encoding']
'utf-8'
>>> chardet.detect(html)

我试了试,好好的
{'confidence': 0.99, 'encoding': 'utf-8', 'language': ''}
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-13 00:30:17 | 显示全部楼层
Python 3.2安装不了怎么办
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-20 13:46:46 | 显示全部楼层
小甲鱼赞!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-31 21:16:02 | 显示全部楼层
发现了新大陆~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-14 02:33:08 | 显示全部楼层
不错不错,终于学到这里了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-20 11:03:52 | 显示全部楼层
chardet模块里没有detect这个函数啊= =
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-4 16:15:12 | 显示全部楼层
支持下 这个确实不错哦~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-1-24 16:57:17 | 显示全部楼层
很难受,你们都有ez_setup.py文件么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-27 18:02:12 | 显示全部楼层
给力
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

头像被屏蔽
发表于 2018-7-26 15:03:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-16 21:37:30 | 显示全部楼层
太给力了  ~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-8-28 21:05:00 | 显示全部楼层
你的网站编码变了。对于新手锻炼不到,只不过看到了也非常好。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-6 14:43:27 | 显示全部楼层
不错,request 要用r.content识别
    r = requests.get(url)
    if chardet.detect(r.content)["encoding"] == "GB2312":
        r.encoding = "GBK"
    else:
        r.encoding = chardet.detect(r.content)["encoding"]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-12-19 15:52:12 | 显示全部楼层
为什么我的fishc是这个??
{'encoding': 'Windows-1254', 'confidence': 0.4510049011289909, 'language': 'Turkish'}
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-15 14:31:49 | 显示全部楼层
厉害了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-17 07:38:50 | 显示全部楼层
欸欸欸,可是我,用的是GB2312decode为什么没有报错……?!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-6-12 16:21:25 | 显示全部楼层
学习了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-15 06:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表