Peteryo01223 发表于 2021-1-27 17:27:09

第31课:永久储存,最后一题的小问题

原题:
编写一个程序,这次要求使用pickle将文件(record.txt 里的对话按照以下要求腌制成不同文件(没错,是第29讲的内容小改,考考你自己能写出来吗?):
•        小甲鱼的对话单独保存为boy_*.txt的文件(去掉“小甲鱼:”)
•        小客服的对话单独保存为girl_*.txt的文件(去掉“小客服:”)
文件中总共有三段对话,分别保存为boy_1.txt, girl_1.txt,boy_2.txt, girl_2.txt, boy_3.txt, gril_3.txt共6个文件(提示:文件中不同的对话间已经使用“==========”分割)

抄写,并注释了答案代码: 都看懂了,也加了,encoding = 'UTF-8',但 run 后报错。
请求:请大家指点我的错误,以便 code 顺利运行。
import pickle

def save_file(boy, girl, count):
    file_name_boy = 'boy_' + str(count) + '.txt' # 首先对三个boy的文本进行命名
    file_name_girl = 'girl_' + str(count) + '.txt' # 同时对三个girl的文本进行命名

    boy_file = open(file_name_boy, 'wb')
    # open() 函数用于打开一个文件,创建 file 对象。记得一定要加 wb
    girl_file = open(file_name_girl, 'wb')
   
    pickle.dump(boy, boy_file)
    # pickle.dump(obj, file, protocol)
    # obj 是序列化对象,将对象obj保存到文件file中去
    # file 是表示保存到的类文件对象
    # protocol 是序列化模式,默认是 0(ASCII协议,表示以文本的形式进行序列化)
   
    pickle.dump(girl, girl_file)

    boy_file.close()
    girl_file.close()

def split_file(file_name):
# 定义一个函数,为了从目标文件中顺利拆分出上面函数中需要的 boy 和 girl 的值
    count = 1 # 设定一个变量,起始值为 1
    boy = [] # 定义一个叫 boy 的空列表
    girl = [] # 定义一个叫 girl 的空列表

    f = open(file_name, encoding = 'UTF-8')
    # 打开目标文件,带中文的话,要加上 encoding = 'UTF-8'

    for each_line in f:
      if each_line[:6] != '======': # 判断一下,如果不是六个=等号开头
            (role, line_spoken) = each_line.split(':', 1)
            # 对 each_line 进行拆分,以英文的冒号:为界,拆分一次
            # 拆后,分别赋值给 role 和 line_spoken

            if role == '小甲鱼': # 如果前面部分是小甲鱼
                boy.append(line_spoken) # 那么后面的部分放入列表 boy
            if role == '小客服': # 如果前面部分是小客服
                girl.append(line_spoken) # 那么后面的部分放入列表 girl

      else: # 其他情况,即如是六个=等号开头,也就是遇到了题目中提到的分割的情况,本轮操作结束
            save_file(boy, girl, count) # 那么,就把两个列表和一个值放入上面定义好的函数里,运行出结果

            boy = [] # 恢复空列表 boy, 为后面的运行做好准备
            girl = [] # 恢复空列表 girl, 为后面的运行做好准备
            count += 1 # 由于有了上一轮操作了,那么在继续前,把 count 的值主动加1

            # 以上程序会一直扫过txt文件的整个文本的每一行,直至最后一行

    save_file(boy, girl, count)
    # 这一行,是因为 txt 里分割=等号出现在第1/2段之间,和第2/3段之间,第三段末尾没写=等号符
    f.close() # 关闭文件,确保保存入硬盘,不至于由于断电而丢失在缓存中的文档

split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
报错如下:
================== RESTART: C:/Users/user/Desktop/20210127c.py =================
Traceback (most recent call last):
File "C:/Users/user/Desktop/20210127c.py", line 55, in <module>
    split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
File "C:/Users/user/Desktop/20210127c.py", line 31, in split_file
    for each_line in f:
File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 2: invalid start byte

jackz007 发表于 2021-1-27 17:37:48

本帖最后由 jackz007 于 2021-1-27 17:40 编辑

f = open(file_name, encoding = 'UTF-8')
       改成这样试试
f = open(file_name)
       encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉,适合才是硬道理!

冬雪雪冬 发表于 2021-1-27 17:39:28

不知你的record.txt是什么编码,去掉encoding = 'UTF-8'再试试

Peteryo01223 发表于 2021-1-27 17:46:47

jackz007 发表于 2021-1-27 17:37
改成这样试试

       encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉, ...

成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?

Peteryo01223 发表于 2021-1-27 17:47:26

冬雪雪冬 发表于 2021-1-27 17:39
不知你的record.txt是什么编码,去掉encoding = 'UTF-8'再试试

确实如此,去掉它,反而成功了。谢谢

Peteryo01223 发表于 2021-1-27 18:18:50

Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?

不行,这次分拆出来的txt文件,都是方块字的乱码。为何?!

jackz007 发表于 2021-1-27 18:41:19

本帖最后由 jackz007 于 2021-1-27 18:43 编辑

Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?

      中文字符的常用编码有 2 种,"GBK" 和 "UTF-8",Windows 下的缺省编码是 "GBK",Linux 是 "UTF-8",Python 在读取文本文件的时候,需要把文件内容进行解码,然后再转换成 unicode 编码,如果不指定 encoding = ,Python 会按照操作系统的缺省编码进行解码,如果文件的编码格式与 Python 解码不对应,就会发生错误。
      你在读取中文文本文件过程中所遇到的错误都是这个原因。
页: [1]
查看完整版本: 第31课:永久储存,最后一题的小问题