|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
原题:
编写一个程序,这次要求使用pickle将文件( record.txt 里的对话按照以下要求腌制成不同文件(没错,是第29讲的内容小改,考考你自己能写出来吗?):
• 小甲鱼的对话单独保存为boy_*.txt的文件(去掉“小甲鱼:”)
• 小客服的对话单独保存为girl_*.txt的文件(去掉“小客服:”)
文件中总共有三段对话,分别保存为boy_1.txt, girl_1.txt,boy_2.txt, girl_2.txt, boy_3.txt, gril_3.txt共6个文件(提示:文件中不同的对话间已经使用“==========”分割)
抄写,并注释了答案代码: 都看懂了,也加了,encoding = 'UTF-8',但 run 后报错。
请求:请大家指点我的错误,以便 code 顺利运行。
- import pickle
- def save_file(boy, girl, count):
- file_name_boy = 'boy_' + str(count) + '.txt' # 首先对三个boy的文本进行命名
- file_name_girl = 'girl_' + str(count) + '.txt' # 同时对三个girl的文本进行命名
- boy_file = open(file_name_boy, 'wb')
- # open() 函数用于打开一个文件,创建 file 对象。记得一定要加 wb
- girl_file = open(file_name_girl, 'wb')
-
- pickle.dump(boy, boy_file)
- # pickle.dump(obj, file, protocol)
- # obj 是序列化对象,将对象obj保存到文件file中去
- # file 是表示保存到的类文件对象
- # protocol 是序列化模式,默认是 0(ASCII协议,表示以文本的形式进行序列化)
-
- pickle.dump(girl, girl_file)
- boy_file.close()
- girl_file.close()
- def split_file(file_name):
- # 定义一个函数,为了从目标文件中顺利拆分出上面函数中需要的 boy 和 girl 的值
- count = 1 # 设定一个变量,起始值为 1
- boy = [] # 定义一个叫 boy 的空列表
- girl = [] # 定义一个叫 girl 的空列表
- f = open(file_name, encoding = 'UTF-8')
- # 打开目标文件,带中文的话,要加上 encoding = 'UTF-8'
- for each_line in f:
- if each_line[:6] != '======': # 判断一下,如果不是六个=等号开头
- (role, line_spoken) = each_line.split(':', 1)
- # 对 each_line 进行拆分,以英文的冒号:为界,拆分一次
- # 拆后,分别赋值给 role 和 line_spoken
- if role == '小甲鱼': # 如果前面部分是小甲鱼
- boy.append(line_spoken) # 那么后面的部分放入列表 boy
- if role == '小客服': # 如果前面部分是小客服
- girl.append(line_spoken) # 那么后面的部分放入列表 girl
- else: # 其他情况,即如是六个=等号开头,也就是遇到了题目中提到的分割的情况,本轮操作结束
- save_file(boy, girl, count) # 那么,就把两个列表和一个值放入上面定义好的函数里,运行出结果
- boy = [] # 恢复空列表 boy, 为后面的运行做好准备
- girl = [] # 恢复空列表 girl, 为后面的运行做好准备
- count += 1 # 由于有了上一轮操作了,那么在继续前,把 count 的值主动加1
- # 以上程序会一直扫过txt文件的整个文本的每一行,直至最后一行
- save_file(boy, girl, count)
- # 这一行,是因为 txt 里分割=等号出现在第1/2段之间,和第2/3段之间,第三段末尾没写=等号符
- f.close() # 关闭文件,确保保存入硬盘,不至于由于断电而丢失在缓存中的文档
- split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
复制代码
报错如下:
- ================== RESTART: C:/Users/user/Desktop/20210127c.py =================
- Traceback (most recent call last):
- File "C:/Users/user/Desktop/20210127c.py", line 55, in <module>
- split_file('record.txt') # 使用第二个函数,打开目标文件 record.txt
- File "C:/Users/user/Desktop/20210127c.py", line 31, in split_file
- for each_line in f:
- File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
- (result, consumed) = self._buffer_decode(data, self.errors, final)
- UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbf in position 2: invalid start byte
复制代码
本帖最后由 jackz007 于 2021-1-27 17:40 编辑
- f = open(file_name, encoding = 'UTF-8')
复制代码
改成这样试试
encoding = "UTF-8" 并不是 "灵丹妙药" 有的时候,也需要把它专门去掉,适合才是硬道理!
|
|