鱼C论坛

 找回密码
 立即注册
查看: 1227|回复: 1

[已解决]萌新求助:decode(encode,'ignore')里面的'ignore'代表啥?

[复制链接]
发表于 2018-5-13 15:23:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 746780487 于 2018-5-13 15:24 编辑

import urllib.request as ur
import chardet

def main():
    i = 0

    with open('urls.txt','r') as f:
        urls = f.read().splitlines()#分割换行符

        for each_url in urls:
            response = ur.urlopen(each_url)
            html = response.read()

            encode = chardet.detect(html)['encoding']#识别编码
            if encode == 'GB2312':
                encode = 'GBK'

            i += 1
            filename = 'url_%d.txt'% i
            

            with open(filename,'w',encoding=encode) as each_file:
                each_file.write(html.decode(encode,'ignore'))
                #html.decode(encode)我能够理解,后面的'ignore'是代表啥呢

if __name__ == '__main__':
    main()
最佳答案
2018-5-13 15:39:45
就是有时候掺杂了别的编码,就给他忽略掉
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-5-13 15:39:45 | 显示全部楼层    本楼为最佳答案   
就是有时候掺杂了别的编码,就给他忽略掉
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-27 11:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表