鱼C论坛

 找回密码
 立即注册
查看: 1730|回复: 6

[已解决]第31课:永久储存,最后一题的小问题

[复制链接]
发表于 2021-1-27 17:27:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
原题:
编写一个程序,这次要求使用pickle将文件(  record.txt 里的对话按照以下要求腌制成不同文件(没错,是第29讲的内容小改,考考你自己能写出来吗?):
•        小甲鱼的对话单独保存为boy_*.txt的文件(去掉“小甲鱼:”)
•        小客服的对话单独保存为girl_*.txt的文件(去掉“小客服:”)
文件中总共有三段对话,分别保存为boy_1.txt, girl_1.txt,boy_2.txt, girl_2.txt, boy_3.txt, gril_3.txt共6个文件(提示:文件中不同的对话间已经使用“==========”分割)

抄写,并注释了答案代码: 都看懂了,也加了,encoding = 'UTF-8',但 run 后报错。
请求:请大家指点我的错误,以便 code 顺利运行。
  1. import pickle

  2. def save_file(boy, girl, count):
  3.     file_name_boy = 'boy_' + str(count) + '.txt' # 首先对三个boy的文本进行命名
  4.     file_name_girl = 'girl_' + str(count) + '.txt' # 同时对三个girl的文本进行命名

  5.     boy_file = open(file_name_boy, 'wb')
  6.     # open() 函数用于打开一个文件,创建 file 对象。记得一定要加 wb
  7.     girl_file = open(file_name_girl, 'wb')
  8.    
  9.     pickle.dump(boy, boy_file)
  10.     # pickle.dump(obj, file, protocol)
  11.     # obj 是序列化对象,将对象obj保存到文件file中去
  12.     # file 是表示保存到的类文件对象
  13.     # protocol 是序列化模式,默认是 0(ASCII协议,表示以文本的形式进行序列化)
  14.    
  15.     pickle.dump(girl, girl_file)

  16.     boy_file.close()
  17.     girl_file.close()

  18. def split_file(file_name):
  19. # 定义一个函数,为了从目标文件中顺利拆分出上面函数中需要的 boy 和 girl 的值
  20.     count = 1 # 设定一个变量,起始值为 1
  21.     boy = [] # 定义一个叫 boy 的空列表
  22.     girl = [] # 定义一个叫 girl 的空列表

  23.     f = open(file_name, encoding = 'UTF-8')
  24.     # 打开目标文件,带中文的话,要加上 encoding = 'UTF-8'

  25.     for each_line in f:
  26.         if each_line[:6] != '======': # 判断一下,如果不是六个=等号开头
  27.             (role, line_spoken) = each_line.split(':', 1)
  28.             # 对 each_line 进行拆分,以英文的冒号:为界,拆分一次
  29.             # 拆后,分别赋值给 role 和 line_spoken

  30.             if role == '小甲鱼': # 如果前面部分是小甲鱼
  31.                 boy.append(line_spoken) # 那么后面的部分放入列表 boy
  32.             if role == '小客服': # 如果前面部分是小客服
  33.                 girl.append(line_spoken) # 那么后面的部分放入列表 girl

  34.         else: # 其他情况,即如是六个=等号开头,也就是遇到了题目中提到的分割的情况,本轮操作结束
  35.             save_file(boy, girl, count) # 那么,就把两个列表和一个值放入上面定义好的函数里,运行出结果

  36.             boy = [] # 恢复空列表 boy, 为后面的运行做好准备
  37.             girl = [] # 恢复空列表 girl, 为后面的运行做好准备
  38.             count += 1 # 由于有了上一轮操作了,那么在继续前,把 count 的值主动加1

  39.             # 以上程序会一直扫过txt文件的整个文本的每一行,直至最后一行

  40.     save_file(boy, girl, count)
  41.     # 这一行,是因为 txt 里分割=等号出现在第1/2段之间,和第2/3段之间,第三段末尾没写=等号符
  42.     f.close() # 关闭文件,确保保存入硬盘,不至于由于断电而丢失在缓存中的文档

  43. split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
复制代码

报错如下:
  1. ================== RESTART: C:/Users/user/Desktop/20210127c.py =================
  2. Traceback (most recent call last):
  3.   File "C:/Users/user/Desktop/20210127c.py", line 55, in <module>
  4.     split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
  5.   File "C:/Users/user/Desktop/20210127c.py", line 31, in split_file
  6.     for each_line in f:
  7.   File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
  8.     (result, consumed) = self._buffer_decode(data, self.errors, final)
  9. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 2: invalid start byte
复制代码


最佳答案
2021-1-27 17:37:48
本帖最后由 jackz007 于 2021-1-27 17:40 编辑
  1. f = open(file_name, encoding = 'UTF-8')
复制代码

       改成这样试试
  1. f = open(file_name)
复制代码

       encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉,适合才是硬道理!
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-1-27 17:37:48 | 显示全部楼层    本楼为最佳答案   
本帖最后由 jackz007 于 2021-1-27 17:40 编辑
  1. f = open(file_name, encoding = 'UTF-8')
复制代码

       改成这样试试
  1. f = open(file_name)
复制代码

       encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉,适合才是硬道理!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-1-27 17:39:28 | 显示全部楼层
不知你的record.txt是什么编码,去掉encoding = 'UTF-8'再试试
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-1-27 17:46:47 | 显示全部楼层
jackz007 发表于 2021-1-27 17:37
改成这样试试

       encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉, ...

成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-1-27 17:47:26 | 显示全部楼层
冬雪雪冬 发表于 2021-1-27 17:39
不知你的record.txt是什么编码,去掉encoding = 'UTF-8'再试试

确实如此,去掉它,反而成功了。谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-1-27 18:18:50 From FishC Mobile | 显示全部楼层
Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?

不行,这次分拆出来的txt文件,都是方块字的乱码。为何?!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-1-27 18:41:19 | 显示全部楼层
本帖最后由 jackz007 于 2021-1-27 18:43 编辑
Peteryo01223 发表于 2021-1-27 17:46
成功。这么神奇吗?为何这次有中文,但专门不要 encoding = "UTF-8" ?


      中文字符的常用编码有 2 种,"GBK" 和 "UTF-8",Windows 下的缺省编码是 "GBK",Linux 是 "UTF-8",Python 在读取文本文件的时候,需要把文件内容进行解码,然后再转换成 unicode 编码,如果不指定 encoding = ,Python 会按照操作系统的缺省编码进行解码,如果文件的编码格式与 Python 解码不对应,就会发生错误。
      你在读取中文文本文件过程中所遇到的错误都是这个原因。

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
Peteryo01223 + 5 + 5 + 3

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-8-5 00:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表