三问：os 练习题,萌新交流区,萌新训练营,鱼C论坛

Peteryo01223 发表于 2021-1-27 10:54:51

三问：os 练习题

本帖最后由 Peteryo01223 于 2021-1-27 11:29 编辑

原题：Python课后作业，第30课：文件系统 os，最后一道题。
编写一个程序，用户输入关键字，查找当前文件夹内（如果当前文件夹内包含文件夹，则进入文件夹继续搜索）所有含有该关键字的文本文件（.txt后缀），要求显示该文件所在的位置以及关键字在文件中的具体位置（第几行第几个字符），程序实现如图（从略）。

需求：请根据以下 code, 一次性贴出不报错的完整 code。感谢。
问题：会不会是我的 txt ，或者所在文件夹，有什么问题，导致报错？目前，我用来搜索的文件夹，是包括了 FishC 在 Python 第29课，视频中的几个文字对话的 txt 文件。
目前，本题已通过论坛提问，修改过两轮，未能完全解决。目前 code 如下，但运行还报错。注释#为我的理解，结合了高手观点。

import os

def print_pos(key_dict):
keys = key_dict.keys()
# 这里.keys()函数，以列表返回字典里所有的键，即：key，一个数字。字典是由 key 和 value 组成的，前面是数字，后面是一个值。
keys = sorted(keys)
# 由于字典是无序的，这里用sorted()对行数进行排序
for each_key in keys:
   print('关键字出现在第 %s 行，第 %s 个位置。' % (each_key, str(key_dict)))
   # 最后的 str() 函数将指定的值转换为字符串。

def pos_in_line(line, key):
# 定义一个行内str的位置函数，为了在 line 中查找 key的位置
pos = [] # 先定义一个叫做位置 pos 的空列表
begin = line.find(key) # 用 find()方法定位,也就是找到字符串line中key的索引值
while begin != -1:
# 只要不是最后一位，就继续找。我还是首次见到 while 的条件是 -1 的写法，新奇。
   pos.append(begin + 1)
   # Python 的索引值和普通人不同，人是从1开始数，而索引是从0开始
   begin = line.find(key, begin + 1)
   # 继续迭代，从下一个位置继续找

return pos
# 保存好 pos 的值

def search_in_file(file_name, key):
# 定义一个文件内行位置的函数，为了在 file_name文件中查找出现了 key 的行的位置
f = open(file_name, encoding ='UTF-8')
# 打开这个文件。我在此特意添加了 encoding = 'UTF-8'。
count = 0
# 给一个叫做 count 的变量赋值为零，以便下面对行数进行记录
key_dict = dict()
# 定义一个空的字典，用户存放 key 所在行数对应具体的位置

for each_line in f:
# 这个文件 f 中，的每一行
   count += 1
   # count 的变量加上1，即每统计一次，这个值都要加 1
   if key in each_line:
   # 如果 key 出现在了 each_line里面的话
         pos = pos_in_line(each_line, key)
         # 本函数负责算出 key 在每一行对应的位置
         key_dict = pos
         # 把 pos 的值，当作value，给字典 key_dict 中对应 count的 key

f.close()
# 关闭 f, 确保数据不丢失
return key_dict
# 返回这个叫做 key_dict 的字典的值

def search_files(key, detail):
# 定义一个位置函数，为了保证如果当前文件夹内包含文件夹，则进入文件夹继续搜索
all_files = os.walk(os.getcwd())
# 用 os.getcwd(), 返回当前工作的这个目录
# 用 os.walk()方法, 遍历目录,统计出在目录树中全部的文件名，向上或者向下都包括了

txt_files = []
# 设置一个空列表，用于在之后的 code 运行中，存储全部文本属性的 files

for i in all_files:
# 对于每一个目录树中的文件名
   for each_file in i:
   # os.walk()返回的每个元素,都是一个三元组(root,dirs,files)，i对应正在遍历的文件夹中的文件名的集合
         if os.path.splitext(each_file) == '.txt':
         # 根据后缀判断,如果是文本文件
            each_file = os.path.join(i, each_file)
            # join()将元素i与文件名，连接生成新的str，i对应 root,即：正在遍历的文件夹的名字（根/子）
            txt_files.append(each_file)
            # 就把这个文本文件放入 txt_files 列表

for each_txt_file in txt_files:
# 对于每一个在 txt_files 列表中出现的文件名
   key_dict = search_in_file(each_txt_file, key)
   # 把这个文件名，和对应的那个程序使用者在搜寻的 key，放入 key_dict 字典中
   if key_dict:
   # 如果key_dict 字典为真，即：发现了关键字了
         print('========================================================')
         print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
         if detail in ['YES','Yes','yes']:# detail是个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes，就打印。
            print_pos(key_dict)
            # 运行此‘位置’函数

key = input('请将该脚本放于待查找的文件夹内，请输入关键字：')
detail = input('请问是否需要打印关键字【%s】在文件中的具体位置（YES/NO）:' % key)
search_files(key, detail) # 运行此函数

# 以下为前两轮提问中，众人的提示：
# 注意，字典是无序的，但根据代码04、06行，keys是按顺序排列后的字典内关键字,所以这里的行数对应的是排序后的顺序
# os.walk()返回的每个元素都是一个三元组(root,dirs,files)
# roots 代表需要遍历的根文件夹
# root 表示正在遍历的文件夹的名字（根/子）
# dirs 记录正在遍历的文件夹下的子文件夹集合
# files 记录正在遍历的文件夹中的文件集合
# detail是一个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes就打印
目前 run 后，前半部分成功，后半部分报错，如下：
=========================== RESTART: F:/20210127a.py ===========================
请将该脚本放于待查找的文件夹内，请输入关键字：下
请问是否需要打印关键字【下】在文件中的具体位置（YES/NO）:yes
========================================================
在文件【F:\a.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
========================================================
在文件【F:\b.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
Traceback (most recent call last):
File "F:/20210127a.py", line 85, in <module>
search_files(key, detail) # 运行此函数
File "F:/20210127a.py", line 73, in search_files
key_dict = search_in_file(each_txt_file, key)
File "F:/20210127a.py", line 35, in search_in_file
for each_line in f:
File "C:\Users\user\AppData\Local\Programs\Python\Python38\lib\codecs.py", line 322, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdf in position 0: invalid continuation byte
>>>

逃兵发表于 2021-1-27 10:54:52

一般都是txt文件编码问题，加了个报错提示，你自己看一下那几个文件的编码是什么
import os

def print_pos(key_dict):
keys = key_dict.keys()
# 这里.keys()函数，以列表返回字典里所有的键，即：key，一个数字。字典是由 key 和 value 组成的，前面是数字，后面是一个值。
keys = sorted(keys)
# 由于字典是无序的，这里用sorted()对行数进行排序
for each_key in keys:
   print('关键字出现在第 %s 行，第 %s 个位置。' % (each_key, str(key_dict)))
   # 最后的 str() 函数将指定的值转换为字符串。

def pos_in_line(line, key):
# 定义一个行内str的位置函数，为了在 line 中查找 key的位置
pos = [] # 先定义一个叫做位置 pos 的空列表
begin = line.find(key) # 用 find()方法定位,也就是找到字符串line中key的索引值
while begin != -1:
# 只要不是最后一位，就继续找。我还是首次见到 while 的条件是 -1 的写法，新奇。
   pos.append(begin + 1)
   # Python 的索引值和普通人不同，人是从1开始数，而索引是从0开始
   begin = line.find(key, begin + 1)
   # 继续迭代，从下一个位置继续找

return pos
# 保存好 pos 的值

def search_in_file(file_name, key):
# 定义一个文件内行位置的函数，为了在 file_name文件中查找出现了 key 的行的位置
f = open(file_name,encoding='UTF-8')
# 打开这个文件。我在此特意添加了 encoding = 'UTF-8'。
count = 0
# 给一个叫做 count 的变量赋值为零，以便下面对行数进行记录
key_dict = dict()
# 定义一个空的字典，用户存放 key 所在行数对应具体的位置

for each_line in f:
# 这个文件 f 中，的每一行
   count += 1
   # count 的变量加上1，即每统计一次，这个值都要加 1
   if key in each_line:
   # 如果 key 出现在了 each_line里面的话
         pos = pos_in_line(each_line, key)
         # 本函数负责算出 key 在每一行对应的位置
         key_dict = pos
         # 把 pos 的值，当作value，给字典 key_dict 中对应 count的 key

f.close()
# 关闭 f, 确保数据不丢失
return key_dict
# 返回这个叫做 key_dict 的字典的值

def search_files(key, detail):
# 定义一个位置函数，为了保证如果当前文件夹内包含文件夹，则进入文件夹继续搜索
all_files = os.walk(os.getcwd())
# 用 os.getcwd(), 返回当前工作的这个目录
# 用 os.walk()方法, 遍历目录,统计出在目录树中全部的文件名，向上或者向下都包括了

txt_files = []
# 设置一个空列表，用于在之后的 code 运行中，存储全部文本属性的 files

for i in all_files:
# 对于每一个目录树中的文件名
   for each_file in i:
   # os.walk()返回的每个元素,都是一个三元组(root,dirs,files)，i对应正在遍历的文件夹中的文件名的集合
         if os.path.splitext(each_file) == '.txt':
         # 根据后缀判断,如果是文本文件
            each_file = os.path.join(i, each_file)
            # join()将元素i与文件名，连接生成新的str，i对应 root,即：正在遍历的文件夹的名字（根/子）
            txt_files.append(each_file)
            # 就把这个文本文件放入 txt_files 列表

for each_txt_file in txt_files:
# 对于每一个在 txt_files 列表中出现的文件名
   try:
         key_dict = search_in_file(each_txt_file, key)
   except:
         print(each_txt_file,'文件出错啦')
   # 把这个文件名，和对应的那个程序使用者在搜寻的 key，放入 key_dict 字典中
   if key_dict:
   # 如果key_dict 字典为真，即：发现了关键字了
         print('========================================================')
         print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
         if detail in ['YES','Yes','yes']:# detail是个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes，就打印。
            print_pos(key_dict)
            # 运行此‘位置’函数

key = input('请将该脚本放于待查找的文件夹内，请输入关键字：')
detail = input('请问是否需要打印关键字【%s】在文件中的具体位置（YES/NO）:' % key)
search_files(key, detail) # 运行此函数

# 以下为前两轮提问中，众人的提示：
# 注意，字典是无序的，但根据代码04、06行，keys是按顺序排列后的字典内关键字,所以这里的行数对应的是排序后的顺序
# os.walk()返回的每个元素都是一个三元组(root,dirs,files)
# roots 代表需要遍历的根文件夹
# root 表示正在遍历的文件夹的名字（根/子）
# dirs 记录正在遍历的文件夹下的子文件夹集合
# files 记录正在遍历的文件夹中的文件集合
# detail是一个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes就打印

Peteryo01223 发表于 2021-1-27 13:40:54

逃兵发表于 2021-1-27 10:54
一般都是txt文件编码问题，加了个报错提示，你自己看一下那几个文件的编码是什么

确实，是txt文件报错。如下：
=========================== RESTART: F:/20210127a.py ===========================
请将该脚本放于待查找的文件夹内，请输入关键字：下
请问是否需要打印关键字【下】在文件中的具体位置（YES/NO）:yes
========================================================
在文件【F:\a.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
========================================================
在文件【F:\b.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\boy_1.txt 文件出错啦
========================================================
在文件【F:\boy_1.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\boy_2.txt 文件出错啦
========================================================
在文件【F:\boy_2.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\boy_3.txt 文件出错啦
========================================================
在文件【F:\boy_3.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\girl_1.txt 文件出错啦
========================================================
在文件【F:\girl_1.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\girl_2.txt 文件出错啦
========================================================
在文件【F:\girl_2.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\girl_3.txt 文件出错啦
========================================================
在文件【F:\girl_3.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
F:\OpenMe.txt 文件出错啦
========================================================
在文件【F:\OpenMe.txt】中找到关键字【下】
关键字出现在第 14 行，第个位置。
关键字出现在第 24 行，第个位置。
========================================================
在文件【F:\record.txt】中找到关键字【下】
关键字出现在第 5 行，第个位置。
关键字出现在第 10 行，第个位置。
>>>

逃兵发表于 2021-1-27 13:47:27

Peteryo01223 发表于 2021-1-27 13:40
确实，是txt文件报错。如下：

改的不严谨
这样子
import os

def print_pos(key_dict):
keys = key_dict.keys()
# 这里.keys()函数，以列表返回字典里所有的键，即：key，一个数字。字典是由 key 和 value 组成的，前面是数字，后面是一个值。
keys = sorted(keys)
# 由于字典是无序的，这里用sorted()对行数进行排序
for each_key in keys:
   print('关键字出现在第 %s 行，第 %s 个位置。' % (each_key, str(key_dict)))
   # 最后的 str() 函数将指定的值转换为字符串。

def pos_in_line(line, key):
# 定义一个行内str的位置函数，为了在 line 中查找 key的位置
pos = [] # 先定义一个叫做位置 pos 的空列表
begin = line.find(key) # 用 find()方法定位,也就是找到字符串line中key的索引值
while begin != -1:
# 只要不是最后一位，就继续找。我还是首次见到 while 的条件是 -1 的写法，新奇。
   pos.append(begin + 1)
   # Python 的索引值和普通人不同，人是从1开始数，而索引是从0开始
   begin = line.find(key, begin + 1)
   # 继续迭代，从下一个位置继续找

return pos
# 保存好 pos 的值

def search_in_file(file_name, key):
# 定义一个文件内行位置的函数，为了在 file_name文件中查找出现了 key 的行的位置
f = open(file_name,encoding = 'UTF-8')
# 打开这个文件。我在此特意添加了 encoding = 'UTF-8'。
count = 0
# 给一个叫做 count 的变量赋值为零，以便下面对行数进行记录
key_dict = dict()
# 定义一个空的字典，用户存放 key 所在行数对应具体的位置

for each_line in f:
# 这个文件 f 中，的每一行
   count += 1
   # count 的变量加上1，即每统计一次，这个值都要加 1
   if key in each_line:
   # 如果 key 出现在了 each_line里面的话
         pos = pos_in_line(each_line, key)
         # 本函数负责算出 key 在每一行对应的位置
         key_dict = pos
         # 把 pos 的值，当作value，给字典 key_dict 中对应 count的 key

f.close()
# 关闭 f, 确保数据不丢失
return key_dict
# 返回这个叫做 key_dict 的字典的值

def search_files(key, detail):
# 定义一个位置函数，为了保证如果当前文件夹内包含文件夹，则进入文件夹继续搜索
all_files = os.walk(os.getcwd())
# 用 os.getcwd(), 返回当前工作的这个目录
# 用 os.walk()方法, 遍历目录,统计出在目录树中全部的文件名，向上或者向下都包括了

txt_files = []
# 设置一个空列表，用于在之后的 code 运行中，存储全部文本属性的 files

for i in all_files:
# 对于每一个目录树中的文件名
   for each_file in i:
   # os.walk()返回的每个元素,都是一个三元组(root,dirs,files)，i对应正在遍历的文件夹中的文件名的集合
         if os.path.splitext(each_file) == '.txt':
         # 根据后缀判断,如果是文本文件
            each_file = os.path.join(i, each_file)
            # join()将元素i与文件名，连接生成新的str，i对应 root,即：正在遍历的文件夹的名字（根/子）
            txt_files.append(each_file)
            # 就把这个文本文件放入 txt_files 列表

for each_txt_file in txt_files:
# 对于每一个在 txt_files 列表中出现的文件名
   try:
         key_dict = search_in_file(each_txt_file, key)
         # 把这个文件名，和对应的那个程序使用者在搜寻的 key，放入 key_dict 字典中
         if key_dict:
         # 如果key_dict 字典为真，即：发现了关键字了
            print('========================================================')
            print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
            if detail in ['YES','Yes','yes']:# detail是个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes，就打印。
               print_pos(key_dict)
               # 运行此‘位置’函数
   except:
         print('========================================================')
         print(each_txt_file,'文件出错啦')

key = input('请将该脚本放于待查找的文件夹内，请输入关键字：')
detail = input('请问是否需要打印关键字【%s】在文件中的具体位置（YES/NO）:' % key)
search_files(key, detail) # 运行此函数

# 以下为前两轮提问中，众人的提示：
# 注意，字典是无序的，但根据代码04、06行，keys是按顺序排列后的字典内关键字,所以这里的行数对应的是排序后的顺序
# os.walk()返回的每个元素都是一个三元组(root,dirs,files)
# roots 代表需要遍历的根文件夹
# root 表示正在遍历的文件夹的名字（根/子）
# dirs 记录正在遍历的文件夹下的子文件夹集合
# files 记录正在遍历的文件夹中的文件集合
# detail是一个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes就打印

Peteryo01223 发表于 2021-1-27 13:50:40

逃兵发表于 2021-1-27 13:47
改的不严谨
这样子

好的。我刚误操作，yes 打成了 key，竟然也 run 成功了，如下。请问为何呀？
=========================== RESTART: F:/20210127a.py ===========================
请将该脚本放于待查找的文件夹内，请输入关键字：下
请问是否需要打印关键字【下】在文件中的具体位置（YES/NO）:key
========================================================
在文件【F:\a.txt】中找到关键字【下】
========================================================
在文件【F:\b.txt】中找到关键字【下】
========================================================
F:\boy_1.txt 文件出错啦
========================================================
F:\boy_2.txt 文件出错啦
========================================================
F:\boy_3.txt 文件出错啦
========================================================
F:\girl_1.txt 文件出错啦
========================================================
F:\girl_2.txt 文件出错啦
========================================================
F:\girl_3.txt 文件出错啦
========================================================
F:\OpenMe.txt 文件出错啦
========================================================
在文件【F:\record.txt】中找到关键字【下】
>>>

逃兵发表于 2021-1-27 13:58:27

Peteryo01223 发表于 2021-1-27 13:50
好的。我刚误操作，yes 打成了 key，竟然也 run 成功了，如下。请问为何呀？

第66~79行
if key_dict:
# 如果key_dict 字典为真，即：发现了关键字了
print('========================================================')
print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
程序设定中
# 如果key_dict 字典为真就print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
第80~82行
if detail in ['YES','Yes','yes']:# detail是个标志位，判断用户需不需要打印关键字在文件中的具体位置，如输入YES/Yes/yes，就打印。
print_pos(key_dict)
是yes的话会
print_pos(key_dict)

这里key不是yes，会执行
print('========================================================')
print('在文件【%s】中找到关键字【%s】' % (each_txt_file, key))
不执行
print_pos(key_dict)

Peteryo01223 发表于 2021-1-27 14:08:25

逃兵发表于 2021-1-27 13:58
第66~79行

程序设定中

{:5_95:}

页: [1]

鱼C论坛's Archiver

三问：os 练习题