|
10鱼币
本帖最后由 Peteryo01223 于 2021-1-27 11:29 编辑
原题:Python课后作业, 第30课:文件系统 os,最后一道题。
编写一个程序,用户输入关键字,查找当前文件夹内(如果当前文件夹内包含文件夹,则进入文件夹继续搜索)所有含有该关键字的文本文件(.txt后缀),要求显示该文件所在的位置以及关键字在文件中的具体位置(第几行第几个字符),程序实现如图(从略)。
需求: 请根据以下 code, 一次性贴出不报错的完整 code。感谢。
问题:会不会是我的 txt ,或者所在文件夹,有什么问题,导致报错?目前,我用来搜索的文件夹,是包括了 FishC 在 Python 第29课,视频中的几个文字对话的 txt 文件。
目前,本题已通过论坛提问,修改过两轮,未能完全解决。目前 code 如下,但运行还报错。注释#为我的理解,结合了高手观点。
- import os
- def print_pos(key_dict):
- keys = key_dict.keys()
- # 这里.keys()函数,以列表返回字典里所有的键,即:key,一个数字。字典是由 key 和 value 组成的,前面是数字,后面是一个值。
- keys = sorted(keys)
- # 由于字典是无序的,这里用sorted()对行数进行排序
- for each_key in keys:
- print('关键字出现在第 %s 行,第 %s 个位置。' % (each_key, str(key_dict[each_key])))
- # 最后的 str() 函数将指定的值转换为字符串。
- def pos_in_line(line, key):
- # 定义一个行内str的位置函数,为了在 line 中查找 key的位置
- pos = [] # 先定义一个叫做位置 pos 的空列表
- begin = line.find(key) # 用 find()方法定位,也就是找到字符串line中key的索引值
- while begin != -1:
- # 只要不是最后一位,就继续找。我还是首次见到 while 的条件是 -1 的写法,新奇。
- pos.append(begin + 1)
- # Python 的索引值和普通人不同,人是从1开始数,而索引是从0开始
- begin = line.find(key, begin + 1)
- # 继续迭代,从下一个位置继续找
- return pos
- # 保存好 pos 的值
- def search_in_file(file_name, key):
- # 定义一个文件内行位置的函数,为了在 file_name文件中查找出现了 key 的行的位置
- f = open(file_name, encoding ='UTF-8')
- # 打开这个文件。我在此特意添加了 encoding = 'UTF-8'。
- count = 0
- # 给一个叫做 count 的变量赋值为零,以便下面对行数进行记录
- key_dict = dict()
- # 定义一个空的字典,用户存放 key 所在行数对应具体的位置
- for each_line in f:
- # 这个文件 f 中,的每一行
- count += 1
- # count 的变量加上1,即每统计一次,这个值都要加 1
- if key in each_line:
- # 如果 key 出现在了 each_line里面的话
- pos = pos_in_line(each_line, key)
- # 本函数负责算出 key 在每一行对应的位置
- key_dict[count] = pos
- # 把 pos 的值,当作value,给字典 key_dict 中对应 count的 key
- f.close()
- # 关闭 f, 确保数据不丢失
- return key_dict
- # 返回这个叫做 key_dict 的字典的值
- def search_files(key, detail):
- # 定义一个位置函数,为了保证如果当前文件夹内包含文件夹,则进入文件夹继续搜索
- all_files = os.walk(os.getcwd())
- # 用 os.getcwd(), 返回当前工作的这个目录
- # 用 os.walk()方法, 遍历目录,统计出在目录树中全部的文件名,向上或者向下都包括了
-
- txt_files = []
- # 设置一个空列表,用于在之后的 code 运行中,存储全部文本属性的 files
- for i in all_files:
- # 对于每一个目录树中的文件名
- for each_file in i[2]:
- # os.walk()返回的每个元素,都是一个三元组(root,dirs,files),i[2]对应正在遍历的文件夹中的文件名的集合
- if os.path.splitext(each_file)[1] == '.txt':
- # 根据后缀判断,如果是文本文件
- each_file = os.path.join(i[0], each_file)
- # join()将元素i[0]与文件名,连接生成新的str,i[0]对应 root,即:正在遍历的文件夹的名字(根/子)
- txt_files.append(each_file)
- # 就把这个文本文件放入 txt_files 列表
- for each_txt_file in txt_files:
- # 对于每一个在 txt_files 列表中出现的文件名
- key_dict = search_in_file(each_txt_file, key)
- # 把这个文件名,和对应的那个程序使用者在搜寻的 key,放入 key_dict 字典中
- if key_dict:
- # 如果key_dict 字典为真,即:发现了关键字了
- print('========================================================')
- print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
- if detail in ['YES','Yes','yes']: # detail是个标志位,判断用户需不需要打印关键字在文件中的具体位置,如输入YES/Yes/yes,就打印。
- print_pos(key_dict)
- # 运行此‘位置’函数
- key = input('请将该脚本放于待查找的文件夹内,请输入关键字:')
- detail = input('请问是否需要打印关键字【%s】在文件中的具体位置(YES/NO):' % key)
- search_files(key, detail) # 运行此函数
- # 以下为前两轮提问中,众人的提示:
- # 注意,字典是无序的,但根据代码04、06行,keys是按顺序排列后的字典内关键字,所以这里的行数对应的是排序后的顺序
- # os.walk()返回的每个元素都是一个三元组(root,dirs,files)
- # roots 代表需要遍历的根文件夹
- # root 表示正在遍历的文件夹的名字(根/子)
- # dirs 记录正在遍历的文件夹下的子文件夹集合
- # files 记录正在遍历的文件夹中的文件集合
- # detail是一个标志位,判断用户需不需要打印关键字在文件中的具体位置,如输入YES/Yes/yes就打印
复制代码
目前 run 后,前半部分成功,后半部分报错,如下:
- =========================== RESTART: F:/20210127a.py ===========================
- 请将该脚本放于待查找的文件夹内,请输入关键字:下
- 请问是否需要打印关键字【下】在文件中的具体位置(YES/NO):yes
- ========================================================
- 在文件【F:\a.txt】中找到关键字【下】
- 关键字出现在第 14 行,第 [4] 个位置。
- 关键字出现在第 24 行,第 [12] 个位置。
- ========================================================
- 在文件【F:\b.txt】中找到关键字【下】
- 关键字出现在第 14 行,第 [4] 个位置。
- 关键字出现在第 24 行,第 [12] 个位置。
- Traceback (most recent call last):
- File "F:/20210127a.py", line 85, in <module>
- search_files(key, detail) # 运行此函数
- File "F:/20210127a.py", line 73, in search_files
- key_dict = search_in_file(each_txt_file, key)
- File "F:/20210127a.py", line 35, in search_in_file
- for each_line in f:
- File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
- (result, consumed) = self._buffer_decode(data, self.errors, final)
- UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdf in position 0: invalid continuation byte
- >>>
复制代码
一般都是txt文件编码问题,加了个报错提示,你自己看一下那几个文件的编码是什么
- import os
- def print_pos(key_dict):
- keys = key_dict.keys()
- # 这里.keys()函数,以列表返回字典里所有的键,即:key,一个数字。字典是由 key 和 value 组成的,前面是数字,后面是一个值。
- keys = sorted(keys)
- # 由于字典是无序的,这里用sorted()对行数进行排序
- for each_key in keys:
- print('关键字出现在第 %s 行,第 %s 个位置。' % (each_key, str(key_dict[each_key])))
- # 最后的 str() 函数将指定的值转换为字符串。
- def pos_in_line(line, key):
- # 定义一个行内str的位置函数,为了在 line 中查找 key的位置
- pos = [] # 先定义一个叫做位置 pos 的空列表
- begin = line.find(key) # 用 find()方法定位,也就是找到字符串line中key的索引值
- while begin != -1:
- # 只要不是最后一位,就继续找。我还是首次见到 while 的条件是 -1 的写法,新奇。
- pos.append(begin + 1)
- # Python 的索引值和普通人不同,人是从1开始数,而索引是从0开始
- begin = line.find(key, begin + 1)
- # 继续迭代,从下一个位置继续找
- return pos
- # 保存好 pos 的值
- def search_in_file(file_name, key):
- # 定义一个文件内行位置的函数,为了在 file_name文件中查找出现了 key 的行的位置
- f = open(file_name,encoding='UTF-8')
- # 打开这个文件。我在此特意添加了 encoding = 'UTF-8'。
- count = 0
- # 给一个叫做 count 的变量赋值为零,以便下面对行数进行记录
- key_dict = dict()
- # 定义一个空的字典,用户存放 key 所在行数对应具体的位置
- for each_line in f:
- # 这个文件 f 中,的每一行
- count += 1
- # count 的变量加上1,即每统计一次,这个值都要加 1
- if key in each_line:
- # 如果 key 出现在了 each_line里面的话
- pos = pos_in_line(each_line, key)
- # 本函数负责算出 key 在每一行对应的位置
- key_dict[count] = pos
- # 把 pos 的值,当作value,给字典 key_dict 中对应 count的 key
- f.close()
- # 关闭 f, 确保数据不丢失
- return key_dict
- # 返回这个叫做 key_dict 的字典的值
- def search_files(key, detail):
- # 定义一个位置函数,为了保证如果当前文件夹内包含文件夹,则进入文件夹继续搜索
- all_files = os.walk(os.getcwd())
- # 用 os.getcwd(), 返回当前工作的这个目录
- # 用 os.walk()方法, 遍历目录,统计出在目录树中全部的文件名,向上或者向下都包括了
-
- txt_files = []
- # 设置一个空列表,用于在之后的 code 运行中,存储全部文本属性的 files
- for i in all_files:
- # 对于每一个目录树中的文件名
- for each_file in i[2]:
- # os.walk()返回的每个元素,都是一个三元组(root,dirs,files),i[2]对应正在遍历的文件夹中的文件名的集合
- if os.path.splitext(each_file)[1] == '.txt':
- # 根据后缀判断,如果是文本文件
- each_file = os.path.join(i[0], each_file)
- # join()将元素i[0]与文件名,连接生成新的str,i[0]对应 root,即:正在遍历的文件夹的名字(根/子)
- txt_files.append(each_file)
- # 就把这个文本文件放入 txt_files 列表
- for each_txt_file in txt_files:
- # 对于每一个在 txt_files 列表中出现的文件名
- try:
- key_dict = search_in_file(each_txt_file, key)
- except:
- print(each_txt_file,'文件出错啦')
- # 把这个文件名,和对应的那个程序使用者在搜寻的 key,放入 key_dict 字典中
- if key_dict:
- # 如果key_dict 字典为真,即:发现了关键字了
- print('========================================================')
- print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
- if detail in ['YES','Yes','yes']: # detail是个标志位,判断用户需不需要打印关键字在文件中的具体位置,如输入YES/Yes/yes,就打印。
- print_pos(key_dict)
- # 运行此‘位置’函数
- key = input('请将该脚本放于待查找的文件夹内,请输入关键字:')
- detail = input('请问是否需要打印关键字【%s】在文件中的具体位置(YES/NO):' % key)
- search_files(key, detail) # 运行此函数
- # 以下为前两轮提问中,众人的提示:
- # 注意,字典是无序的,但根据代码04、06行,keys是按顺序排列后的字典内关键字,所以这里的行数对应的是排序后的顺序
- # os.walk()返回的每个元素都是一个三元组(root,dirs,files)
- # roots 代表需要遍历的根文件夹
- # root 表示正在遍历的文件夹的名字(根/子)
- # dirs 记录正在遍历的文件夹下的子文件夹集合
- # files 记录正在遍历的文件夹中的文件集合
- # detail是一个标志位,判断用户需不需要打印关键字在文件中的具体位置,如输入YES/Yes/yes就打印
复制代码
|
最佳答案
查看完整内容
一般都是txt文件编码问题,加了个报错提示,你自己看一下那几个文件的编码是什么
|