鱼C论坛

 找回密码
 立即注册
查看: 1496|回复: 5

[已解决]叕出问题了,还希望大家帮助一下

[复制链接]
发表于 2019-10-4 16:36:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request as urt
  2. import chardet as ch


  3. def write_http(num, res, encode):
  4.     name = 'url_' + str(num) + '.txt'
  5.     with open(name, 'wt') as each_file:
  6.         each_file.write(html.decode(encode))


  7. with open('urls.txt', 'rt') as f:
  8.     num = 0
  9.     for each in f:
  10.         num += 1
  11.         response = urt.urlopen(each)
  12.         html = response.read()
  13.         encode = ch.detect(html)['encoding']
  14.         if encode == 'GB2312':
  15.             encode = 'GBK'

  16.         write_http(num, html, encode)
复制代码


感觉没有太大问题结果出现了一个
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29836: illegal multibyte sequence
这样的问题,还希望大家能够解答一下啊。
最佳答案
2019-10-5 05:56:28
  1. import urllib.request as urt
  2. import chardet as ch


  3. def write_http(num, res, encode):
  4.     name = 'url_' + str(num) + '.txt'
  5.    
  6.     with open(name, 'wt', encoding='utf-8') as each_file:   # 加上encoding
  7.         each_file.write(res.decode(encode))     # 应该使用res


  8. with open('urls.txt', 'rt') as f:
  9.     num = 0
  10.     for each in f:
  11.         num += 1
  12.         response = urt.urlopen(each)
  13.         html = response.read()        
  14.         
  15.         encode = ch.detect(html)['encoding']
  16.         if encode == 'GB2312':
  17.             encode = 'GBK'
  18.         
  19.         write_http(num, html, encode)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-10-4 16:44:03 | 显示全部楼层
把完整的报错信息贴出来,我运行没有报错。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-4 16:45:38 | 显示全部楼层
PYTHON2.X??
更换3.x !!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-10-4 19:27:10 | 显示全部楼层
zltzlt 发表于 2019-10-4 16:44
把完整的报错信息贴出来,我运行没有报错。

Traceback (most recent call last):
  File "D:/BaiduNetdiskDownload/.../test.py", line 21, in <module>
    write_http(num, html, encode)
  File "D:/BaiduNetdiskDownload/.../test.py", line 8, in write_http
    each_file.write(html.decode(encode))
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29836: illegal multibyte sequence
这是完整错误信息
urls.txt内文件内容:
http://www.baidu.com
http://www.fishc.com
http://www.douban.com
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-10-4 20:18:28 | 显示全部楼层
  1. Traceback (most recent call last):
  2.   File "D:/BaiduNetdiskDownload/.../test.py", line 21, in <module>
  3.     write_http(num, html, encode)
  4.   File "D:/BaiduNetdiskDownload/程序文件/.../test.py", line 8, in write_http
  5.     each_file.write(html.decode(encode))
  6. UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29836: illegal multibyte sequence
复制代码

这是整个错误信息
然后文件里有两个网址
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-5 05:56:28 | 显示全部楼层    本楼为最佳答案   
  1. import urllib.request as urt
  2. import chardet as ch


  3. def write_http(num, res, encode):
  4.     name = 'url_' + str(num) + '.txt'
  5.    
  6.     with open(name, 'wt', encoding='utf-8') as each_file:   # 加上encoding
  7.         each_file.write(res.decode(encode))     # 应该使用res


  8. with open('urls.txt', 'rt') as f:
  9.     num = 0
  10.     for each in f:
  11.         num += 1
  12.         response = urt.urlopen(each)
  13.         html = response.read()        
  14.         
  15.         encode = ch.detect(html)['encoding']
  16.         if encode == 'GB2312':
  17.             encode = 'GBK'
  18.         
  19.         write_http(num, html, encode)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 10:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表