|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
求助大神:我在网页上爬取了一个网页的文字并转码:urllib.request.urlopen(url).read().decode('utf-8'')
然后对这些字符进行了一系列的操作,比如分片,replace替换一些内容等等,处理好以后我用print函数是能够打印出来的.
但是,我一旦将这些文字用open函数写入txt文件就报错:
UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 15: illegal multibyte sequence
更奇怪的是,同一个网站的,只有其中一个页面有问题,其他的都是正常.而且我print也将这段文字打印出来了,全部都已经只剩下中文及其标点符号,实在没有搞懂到底是那里的问题
打开文件那里改一下。
给你举个例子: - with open('yourtxt.txt', 'w', encoding = 'utf-8')
复制代码加一个encoding参数,如果utf-8不行,就改成gbk
|
|