[已解决]叕出问题了，还希望大家帮助一下

mkx1253 · 发表于 2019-10-4 16:36:04

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request as urt
import chardet as ch
def write_http(num, res, encode):
name = 'url_' + str(num) + '.txt'
with open(name, 'wt') as each_file:
each_file.write(html.decode(encode))
with open('urls.txt', 'rt') as f:
num = 0
for each in f:
num += 1
response = urt.urlopen(each)
html = response.read()
encode = ch.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
write_http(num, html, encode)

复制代码

感觉没有太大问题结果出现了一个
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29836: illegal multibyte sequence
这样的问题，还希望大家能够解答一下啊。

最佳答案

月排行榜 / 总排行榜

XiaoPaiShen

2019-10-5 05:56:28

import urllib.request as urt
import chardet as ch
def write_http(num, res, encode):
name = 'url_' + str(num) + '.txt'
with open(name, 'wt', encoding='utf-8') as each_file: # 加上encoding
each_file.write(res.decode(encode)) # 应该使用res
with open('urls.txt', 'rt') as f:
num = 0
for each in f:
num += 1
response = urt.urlopen(each)
html = response.read()
encode = ch.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
write_http(num, html, encode)

复制代码

跳转到最佳答案楼层

zltzlt · 发表于 2019-10-4 16:44:03

把完整的报错信息贴出来，我运行没有报错。

wp231957 · 发表于 2019-10-4 16:45:38

PYTHON2.X??
更换3.x ！！

mkx1253 · 发表于 2019-10-4 19:27:10

zltzlt 发表于 2019-10-4 16:44
把完整的报错信息贴出来，我运行没有报错。

Traceback (most recent call last):
File "D:/BaiduNetdiskDownload/.../test.py", line 21, in <module>
write_http(num, html, encode)
File "D:/BaiduNetdiskDownload/.../test.py", line 8, in write_http
each_file.write(html.decode(encode))
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29836: illegal multibyte sequence
这是完整错误信息
urls.txt内文件内容：
http://www.baidu.com
http://www.fishc.com
http://www.douban.com

mkx1253 · 发表于 2019-10-4 20:18:28

Traceback (most recent call last):
File "D:/BaiduNetdiskDownload/.../test.py", line 21, in <module>
write_http(num, html, encode)
File "D:/BaiduNetdiskDownload/程序文件/.../test.py", line 8, in write_http
each_file.write(html.decode(encode))
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 29836: illegal multibyte sequence

复制代码

这是整个错误信息
然后文件里有两个网址

XiaoPaiShen · 发表于 2019-10-5 05:56:28

这个最佳答案由 XiaoPaiShen 给出，感谢 XiaoPaiShen 的回答。

单击隐藏图章

import urllib.request as urt
import chardet as ch
def write_http(num, res, encode):
name = 'url_' + str(num) + '.txt'
with open(name, 'wt', encoding='utf-8') as each_file: # 加上encoding
each_file.write(res.decode(encode)) # 应该使用res
with open('urls.txt', 'rt') as f:
num = 0
for each in f:
num += 1
response = urt.urlopen(each)
html = response.read()
encode = ch.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
write_http(num, html, encode)

复制代码

账号		自动登录	找回密码
密码			立即注册

[已解决]叕出问题了，还希望大家帮助一下

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块