第31课:永久储存,最后一题的小问题
原题:编写一个程序,这次要求使用pickle将文件(record.txt 里的对话按照以下要求腌制成不同文件(没错,是第29讲的内容小改,考考你自己能写出来吗?):
• 小甲鱼的对话单独保存为boy_*.txt的文件(去掉“小甲鱼:”)
• 小客服的对话单独保存为girl_*.txt的文件(去掉“小客服:”)
文件中总共有三段对话,分别保存为boy_1.txt, girl_1.txt,boy_2.txt, girl_2.txt, boy_3.txt, gril_3.txt共6个文件(提示:文件中不同的对话间已经使用“==========”分割)
抄写,并注释了答案代码: 都看懂了,也加了,encoding = 'UTF-8',但 run 后报错。
请求:请大家指点我的错误,以便 code 顺利运行。
import pickle
def save_file(boy, girl, count):
file_name_boy = 'boy_' + str(count) + '.txt' # 首先对三个boy的文本进行命名
file_name_girl = 'girl_' + str(count) + '.txt' # 同时对三个girl的文本进行命名
boy_file = open(file_name_boy, 'wb')
# open() 函数用于打开一个文件,创建 file 对象。记得一定要加 wb
girl_file = open(file_name_girl, 'wb')
pickle.dump(boy, boy_file)
# pickle.dump(obj, file, protocol)
# obj 是序列化对象,将对象obj保存到文件file中去
# file 是表示保存到的类文件对象
# protocol 是序列化模式,默认是 0(ASCII协议,表示以文本的形式进行序列化)
pickle.dump(girl, girl_file)
boy_file.close()
girl_file.close()
def split_file(file_name):
# 定义一个函数,为了从目标文件中顺利拆分出上面函数中需要的 boy 和 girl 的值
count = 1 # 设定一个变量,起始值为 1
boy = [] # 定义一个叫 boy 的空列表
girl = [] # 定义一个叫 girl 的空列表
f = open(file_name, encoding = 'UTF-8')
# 打开目标文件,带中文的话,要加上 encoding = 'UTF-8'
for each_line in f:
if each_line[:6] != '======': # 判断一下,如果不是六个=等号开头
(role, line_spoken) = each_line.split(':', 1)
# 对 each_line 进行拆分,以英文的冒号:为界,拆分一次
# 拆后,分别赋值给 role 和 line_spoken
if role == '小甲鱼': # 如果前面部分是小甲鱼
boy.append(line_spoken) # 那么后面的部分放入列表 boy
if role == '小客服': # 如果前面部分是小客服
girl.append(line_spoken) # 那么后面的部分放入列表 girl
else: # 其他情况,即如是六个=等号开头,也就是遇到了题目中提到的分割的情况,本轮操作结束
save_file(boy, girl, count) # 那么,就把两个列表和一个值放入上面定义好的函数里,运行出结果
boy = [] # 恢复空列表 boy, 为后面的运行做好准备
girl = [] # 恢复空列表 girl, 为后面的运行做好准备
count += 1 # 由于有了上一轮操作了,那么在继续前,把 count 的值主动加1
# 以上程序会一直扫过txt文件的整个文本的每一行,直至最后一行
save_file(boy, girl, count)
# 这一行,是因为 txt 里分割=等号出现在第1/2段之间,和第2/3段之间,第三段末尾没写=等号符
f.close() # 关闭文件,确保保存入硬盘,不至于由于断电而丢失在缓存中的文档
split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
报错如下:
================== RESTART: C:/Users/user/Desktop/20210127c.py =================
Traceback (most recent call last):
File "C:/Users/user/Desktop/20210127c.py", line 55, in <module>
split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
File "C:/Users/user/Desktop/20210127c.py", line 31, in split_file
for each_line in f:
File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 2: invalid start byte
本帖最后由 jackz007 于 2021-1-27 17:40 编辑
f = open(file_name, encoding = 'UTF-8')
改成这样试试
f = open(file_name)
encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉,适合才是硬道理! 不知你的record.txt是什么编码,去掉encoding = 'UTF-8'再试试 jackz007 发表于 2021-1-27 17:37
改成这样试试
encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉, ...
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ? 冬雪雪冬 发表于 2021-1-27 17:39
不知你的record.txt是什么编码,去掉encoding = 'UTF-8'再试试
确实如此,去掉它,反而成功了。谢谢 Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?
不行,这次分拆出来的txt文件,都是方块字的乱码。为何?! 本帖最后由 jackz007 于 2021-1-27 18:43 编辑
Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?
中文字符的常用编码有 2 种,"GBK" 和 "UTF-8",Windows 下的缺省编码是 "GBK",Linux 是 "UTF-8",Python 在读取文本文件的时候,需要把文件内容进行解码,然后再转换成 unicode 编码,如果不指定 encoding = ,Python 会按照操作系统的缺省编码进行解码,如果文件的编码格式与 Python 解码不对应,就会发生错误。
你在读取中文文本文件过程中所遇到的错误都是这个原因。
页:
[1]