第31课：永久储存，最后一题的小问题,萌新交流区,萌新训练营,鱼C论坛

Peteryo01223 发表于 2021-1-27 17:27:09

第31课：永久储存，最后一题的小问题

原题：
编写一个程序，这次要求使用pickle将文件（record.txt 里的对话按照以下要求腌制成不同文件（没错，是第29讲的内容小改，考考你自己能写出来吗？）：
• 小甲鱼的对话单独保存为boy_*.txt的文件（去掉“小甲鱼:”）
• 小客服的对话单独保存为girl_*.txt的文件（去掉“小客服:”）
文件中总共有三段对话，分别保存为boy_1.txt, girl_1.txt，boy_2.txt, girl_2.txt, boy_3.txt, gril_3.txt共6个文件（提示：文件中不同的对话间已经使用“==========”分割）

抄写，并注释了答案代码：都看懂了，也加了，encoding = 'UTF-8'，但 run 后报错。
请求：请大家指点我的错误，以便 code 顺利运行。
import pickle

def save_file(boy, girl, count):
file_name_boy = 'boy_' + str(count) + '.txt' # 首先对三个boy的文本进行命名
file_name_girl = 'girl_' + str(count) + '.txt' # 同时对三个girl的文本进行命名

boy_file = open(file_name_boy, 'wb')
# open() 函数用于打开一个文件，创建 file 对象。记得一定要加 wb
girl_file = open(file_name_girl, 'wb')

pickle.dump(boy, boy_file)
# pickle.dump(obj, file, protocol)
# obj 是序列化对象，将对象obj保存到文件file中去
# file 是表示保存到的类文件对象
# protocol 是序列化模式，默认是 0（ASCII协议，表示以文本的形式进行序列化）

pickle.dump(girl, girl_file)

boy_file.close()
girl_file.close()

def split_file(file_name):
# 定义一个函数，为了从目标文件中顺利拆分出上面函数中需要的 boy 和 girl 的值
count = 1 # 设定一个变量，起始值为 1
boy = [] # 定义一个叫 boy 的空列表
girl = [] # 定义一个叫 girl 的空列表

f = open(file_name, encoding = 'UTF-8')
# 打开目标文件，带中文的话，要加上 encoding = 'UTF-8'

for each_line in f:
   if each_line[:6] != '======': # 判断一下，如果不是六个=等号开头
         (role, line_spoken) = each_line.split(':', 1)
         # 对 each_line 进行拆分，以英文的冒号:为界，拆分一次
         # 拆后，分别赋值给 role 和 line_spoken

         if role == '小甲鱼': # 如果前面部分是小甲鱼
            boy.append(line_spoken) # 那么后面的部分放入列表 boy
         if role == '小客服': # 如果前面部分是小客服
            girl.append(line_spoken) # 那么后面的部分放入列表 girl

   else: # 其他情况，即如是六个=等号开头，也就是遇到了题目中提到的分割的情况，本轮操作结束
         save_file(boy, girl, count) # 那么，就把两个列表和一个值放入上面定义好的函数里，运行出结果

         boy = [] # 恢复空列表 boy, 为后面的运行做好准备
         girl = [] # 恢复空列表 girl, 为后面的运行做好准备
         count += 1 # 由于有了上一轮操作了，那么在继续前，把 count 的值主动加1

         # 以上程序会一直扫过txt文件的整个文本的每一行，直至最后一行

save_file(boy, girl, count)
# 这一行，是因为 txt 里分割=等号出现在第1/2段之间，和第2/3段之间，第三段末尾没写=等号符
f.close() # 关闭文件，确保保存入硬盘，不至于由于断电而丢失在缓存中的文档

split_file('record.txt') # 使用第二个函数，打开目标文件 record.txt
报错如下：
================== RESTART: C:/Users/user/Desktop/20210127c.py =================
Traceback (most recent call last):
File "C:/Users/user/Desktop/20210127c.py", line 55, in <module>
split_file('record.txt') # 使用第二个函数，打开目标文件 record.txt
File "C:/Users/user/Desktop/20210127c.py", line 31, in split_file
for each_line in f:
File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 2: invalid start byte

jackz007 发表于 2021-1-27 17:37:48

本帖最后由 jackz007 于 2021-1-27 17:40 编辑

f = open(file_name, encoding = 'UTF-8')
改成这样试试
f = open(file_name)
encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候，也需要把它专门去掉，适合才是硬道理！

冬雪雪冬 发表于 2021-1-27 17:39:28

不知你的record.txt是什么编码，去掉encoding = 'UTF-8'再试试

Peteryo01223 发表于 2021-1-27 17:46:47

jackz007 发表于 2021-1-27 17:37
改成这样试试

encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候，也需要把它专门去掉， ...

成功。这么神奇吗？为何这次有中文，但专门不要 encoding = "UTF-8" ？

Peteryo01223 发表于 2021-1-27 17:47:26

冬雪雪冬发表于 2021-1-27 17:39
不知你的record.txt是什么编码，去掉encoding = 'UTF-8'再试试

确实如此，去掉它，反而成功了。谢谢

Peteryo01223 发表于 2021-1-27 18:18:50

Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗？为何这次有中文，但专门不要 encoding = "UTF-8" ？

不行，这次分拆出来的txt文件，都是方块字的乱码。为何？！

jackz007 发表于 2021-1-27 18:41:19

本帖最后由 jackz007 于 2021-1-27 18:43 编辑

Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗？为何这次有中文，但专门不要 encoding = "UTF-8" ？

中文字符的常用编码有 2 种，"GBK" 和 "UTF-8"，Windows 下的缺省编码是 "GBK"，Linux 是 "UTF-8"，Python 在读取文本文件的时候，需要把文件内容进行解码，然后再转换成 unicode 编码，如果不指定 encoding = ，Python 会按照操作系统的缺省编码进行解码，如果文件的编码格式与 Python 解码不对应，就会发生错误。
你在读取中文文本文件过程中所遇到的错误都是这个原因。

页: [1]

鱼C论坛's Archiver

第31课：永久储存，最后一题的小问题