[已解决]查询词的出现文本数

Amgalang · 发表于 2018-12-30 11:08:45

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

您好，我有一个九十个文本文档的语料库，想查询下高频词汇的出现文本数，就像图片一样C:\Users\amgalang\Desktop\无标题.png，该用什么逻辑编写程序呢，或者麻烦大神练个手给我下代码，感激不均。感恩。
三个显示内容：
词汇词频出现的文本数

最佳答案

月排行榜 / 总排行榜

Stubborn

2018-12-30 16:23:01

import os
def print_key_dict(key_dict):
keys = key_dict.keys()
keys =sorted(keys)
for each_line in keys:
print('关键字出现在第 %s 行，第 %s 个位置。' % (each_line, str(key_dict[each_line])))
def value_deal_with(each_line, key):
value = []
begin = each_line.find(key)
while begin != -1:
value.append(begin + 1)
begin = each_line.find(key, begin + 1)
return value
def dict_deal_with(each_txt,key):
f = open(each_txt)
count = 0
key_dict = dict()
for each_line in f:
count += 1
if key in each_line:
value = value_deal_with(each_line,key)
key_dict[count] = value
f.close()
return key_dict
def chdir_txt(key,yes_on):
txt_file_name=[] #存放txt具体路径
txt_file = os.walk(os.getcwd())
for i in txt_file:
for file in i[2]:
if os.path.splitext(file)[1] == '.txt':
file = os.path.join(i[0],file)
txt_file_name.append(file)
for each_txt in txt_file_name:
key_dict = dict_deal_with(each_txt,key)
if key_dict:
print('================================================================')
print('在文件【%s】中找到关键字【%s】' % (each_txt, key))
if yes_on in ["y","Y"]:
print_key_dict(key_dict)
key = input("输入需要查询的关键字：")
yes_on = input("是否打印%s位置(Y/N):"%(key))
chdir_txt(key,yes_on)

复制代码

具体功能是这样的：

输入需要查询的关键字：甲鱼
是否打印甲鱼位置(Y/N):Y
================================================================
在文件【G:\OneDrive\Python3.7\学习\文件读写修改整理\girl_1.txt】中找到关键字【甲鱼】
关键字出现在第 1 行，第 [2] 个位置。
================================================================
在文件【G:\OneDrive\Python3.7\学习\文件读写修改整理\girl_2.txt】中找到关键字【甲鱼】
关键字出现在第 1 行，第 [2] 个位置。
关键字出现在第 2 行，第 [5] 个位置。
================================================================
在文件【G:\OneDrive\Python3.7\学习\文件读写修改整理\girl_3.txt】中找到关键字【甲鱼】
关键字出现在第 1 行，第 [2] 个位置。

复制代码

跳转到最佳答案楼层

Stubborn · 发表于 2018-12-30 16:23:01

这个最佳答案由 Stubborn 给出，感谢 Stubborn 的回答。

单击隐藏图章

import os
def print_key_dict(key_dict):
keys = key_dict.keys()
keys =sorted(keys)
for each_line in keys:
print('关键字出现在第 %s 行，第 %s 个位置。' % (each_line, str(key_dict[each_line])))
def value_deal_with(each_line, key):
value = []
begin = each_line.find(key)
while begin != -1:
value.append(begin + 1)
begin = each_line.find(key, begin + 1)
return value
def dict_deal_with(each_txt,key):
f = open(each_txt)
count = 0
key_dict = dict()
for each_line in f:
count += 1
if key in each_line:
value = value_deal_with(each_line,key)
key_dict[count] = value
f.close()
return key_dict
def chdir_txt(key,yes_on):
txt_file_name=[] #存放txt具体路径
txt_file = os.walk(os.getcwd())
for i in txt_file:
for file in i[2]:
if os.path.splitext(file)[1] == '.txt':
file = os.path.join(i[0],file)
txt_file_name.append(file)
for each_txt in txt_file_name:
key_dict = dict_deal_with(each_txt,key)
if key_dict:
print('================================================================')
print('在文件【%s】中找到关键字【%s】' % (each_txt, key))
if yes_on in ["y","Y"]:
print_key_dict(key_dict)
key = input("输入需要查询的关键字：")
yes_on = input("是否打印%s位置(Y/N):"%(key))
chdir_txt(key,yes_on)

复制代码

具体功能是这样的：

输入需要查询的关键字：甲鱼
是否打印甲鱼位置(Y/N):Y
================================================================
在文件【G:\OneDrive\Python3.7\学习\文件读写修改整理\girl_1.txt】中找到关键字【甲鱼】
关键字出现在第 1 行，第 [2] 个位置。
================================================================
在文件【G:\OneDrive\Python3.7\学习\文件读写修改整理\girl_2.txt】中找到关键字【甲鱼】
关键字出现在第 1 行，第 [2] 个位置。
关键字出现在第 2 行，第 [5] 个位置。
================================================================
在文件【G:\OneDrive\Python3.7\学习\文件读写修改整理\girl_3.txt】中找到关键字【甲鱼】
关键字出现在第 1 行，第 [2] 个位置。

复制代码

Amgalang · 发表于 2018-12-31 11:34:17

Stubborn 发表于 2018-12-30 16:23
具体功能是这样的：

您好，真心感谢您，不过因为我是新手，所以还想问，我的九十个文档要放在哪里呢，给代码指明路径的地方是？需要注释希望能给到谢谢您

Stubborn · 发表于 2018-12-31 16:05:54

本帖最后由 Stubborn 于 2018-12-31 16:06 编辑

Amgalang 发表于 2018-12-31 11:34
您好，真心感谢您，不过因为我是新手，所以还想问，我的九十个文档要放在哪里呢，给代码指明路径的地 ...

这个是文本格式的，不知道你的只不是文本格式，其他的样式应该会有区别，你的如果也是文本的话，把代码放在当前目录就可以。和文本放一个目录，代码基本能看懂吧？需要做其他功能可以修改下，不懂联系我

Amgalang · 发表于 2019-1-1 10:43:21

Stubborn 发表于 2018-12-31 16:05
这个是文本格式的，不知道你的只不是文本格式，其他的样式应该会有区别，你的如果也是文本的话，把代码 ...

新年快乐，哈哈谢谢您的回复，我的也是文本格式呢，就是当前的目录是在？代码有点看不懂，目录找不到，希望指明目录那一行代码，我好去把我文件放进去。还有如果可以的话不想一个一个单词的找其出现的文本数，想出现高频词汇后后边也生成这个单词的出现文本数这样的话就更好了。麻烦啦

Stubborn · 发表于 2019-1-1 17:11:38

本帖最后由 Stubborn 于 2019-1-2 01:07 编辑

Amgalang 发表于 2019-1-1 10:43
新年快乐，哈哈谢谢您的回复，我的也是文本格式呢，就是当前的目录是在？代码有点看不懂，目录找不到， ...

https://fishc.com.cn/forum.php?m ... 26798&ctid=1453 这个帖子有详细注释，不动可以看下，把代码和文件放在同一个目录下面就可以。和需要查找的文件，放一起，想统计一个一个文本出现高频词汇次数吗？要不你传一个文本把，我看下，练手。比如一个单词，each在这个文本出现的次数？或者是统计所有文字的单词出现的次数？传我QQ邮箱把，有什么想需要的功能，能帮就帮： 1125359115

Amgalang · 发表于 2019-1-3 20:19:04

Stubborn 发表于 2019-1-1 17:11
https://fishc.com.cn/forum.php?mod=viewthread&tid=126798&ctid=1453 这个帖子有详细注释，不动可 ...

您好，真心感谢您，您的代码解决了我的问题，不过来了个新的问题，
就是现在代码跑完后也在出现比如，我要找到单词 ‘SKY’代码跑完后也出现了 'TTSky‘，或者是 ‘SKYOO'，但是我就想要独立的’SKY' 不要某些单词中的，或者以它开头的，就要‘SKY'没有其他成分的，您看能实现吗？是不是要把我的文件先都改为字符串呢？希望指点。谢谢

Stubborn · 发表于 2019-1-3 20:44:17

本帖最后由 Stubborn 于 2019-1-3 20:54 编辑

Amgalang 发表于 2019-1-3 20:19
您好，真心感谢您，您的代码解决了我的问题，不过来了个新的问题，
就是现在代码跑完后也在出现比如 ...

发个文本给我参考下，我看下。需要用到正则表达式。或者你看的动下面的代码，可以借鉴，自己学习，修改下。下面代码是统计文本出现频率最高的前10个单词

import re
file_object = open("text.txt") #打开目录
text=file_object.read()
txt_dict={}#用于统计 txt：个数
txt_list=[]#用于存放所有单词
for letter in text:
if not letter.isalpha():
text = text.replace(letter,'-')
txt_list = text.lower().split('-') #分隔单词
txtlist = list(filter(lambda x : x != '',txt_list))#去掉空串
#print('单词列表：',txtlist)
#正则表达式分隔
specila_set = set()
for letter in text:
if not letter.isalpha():
specila_set.add(letter)
#print('所有不是字母的字符：',specila_set)
pattern = ''.join(specila_set)
pattern = '['+pattern+']'
word_list = re.split(pattern,text.lower()) #还要去除空格
# 遍历字符串，获取每个word追加到wordlist
word =''
word_list2 = []
for letter in text.lower():
if letter.isalpha(): #如果是字母，追加到word
word += letter
else:
if word != '':
word_list2.append(word) #不是字母，word不为空的话追加wordlist
word = '' # word置空
#print(word_list2)
# 正则表达式匹配单词
pattern = r'[a-zA-Z]+'
word_list3 = re.findall(pattern,text.lower())
#print(word_list3)
#统计
for word in set(txt_list):
txt_dict[word] = txt_list.count(word) #key=单词，value=单词在list里的count
print(sorted(txt_dict.items(),key = lambda x:x[1],reverse=True)[0:11]) #dict根据value倒序，取前11个,含有空格，多取一个
#[('', 273), ('i', 44), ('the', 43), ('and', 37), ('of', 36), ('a', 33), ('to', 28), ('was', 26), ('had', 22), ('my', 20), ('as', 17)]

复制代码

Amgalang · 发表于 2019-1-3 23:01:57

Stubborn 发表于 2019-1-3 20:44
发个文本给我参考下，我看下。需要用到正则表达式。或者你看的动下面的代码，可以借鉴，自己学习，修改 ...

您好，给您发了“代码求助”的qq邮箱，您看下，谢谢。

Stubborn · 发表于 2019-1-4 07:32:31

本帖最后由 Stubborn 于 2019-1-4 07:38 编辑

import os
import collections
def search_files(key, detail):
all_files = os.walk(os.getcwd())
txt_files = [] #用来存放txt路径
for root,dirs,files in all_files:
for each_file in files:
if os.path.splitext(each_file)[1] == '.txt':
each_file = os.path.join(root, each_file)
txt_files.append(each_file)
for each_txt_file in txt_files:
with open(each_txt_file) as file1:
str = file1.read().split("\n")
print(each_txt_file)
print("所查询的%s单词出现的次数%s：" % (key, collections.Counter(str)[key]))
key = input('请将该脚本放于待查找的文件夹内，请输入关键字：')
detail = input('请问是否需要打印关键字【%s】在文件中的具体位置（YES/NO）：' % key)
search_files(key, detail)

复制代码

请将该脚本放于待查找的文件夹内，请输入关键字：MINU
请问是否需要打印关键字【MINU】在文件中的具体位置（YES/NO）：YES
E:\OneDrive\Python3.7\近期作业\统计\1.txt

所查询的MINU单词出现的次数14：

E:\OneDrive\Python3.7\近期作业\统计\2.txt

所查询的MINU单词出现的次数3：

E:\OneDrive\Python3.7\近期作业\统计\3.txt

所查询的MINU单词出现的次数3：

E:\OneDrive\Python3.7\近期作业\统计\4.txt

所查询的MINU单词出现的次数0：

E:\OneDrive\Python3.7\近期作业\统计\5.txt

所查询的MINU单词出现的次数9：

E:\OneDrive\Python3.7\近期作业\统计\6.txt

所查询的MINU单词出现的次数5：

E:\OneDrive\Python3.7\近期作业\统计\7.txt

所查询的MINU单词出现的次数0：

Amgalang · 发表于 2019-2-28 11:29:39

Stubborn 发表于 2019-1-4 07:32
请将该脚本放于待查找的文件夹内，请输入关键字：MINU
请问是否需要打印关键字【MINU】在文件中的具体 ...

您好，还记得我吗，哈哈哈。碰到了个问题，请教下，希望指点
您给的代码运行后能找到单个单词的在多个文件当中，具体哪几个文件出现和出现的次数。
然而我想得到代码一运行，多个单词，在多个文件当中，每个单词的出现次数（不需要定位）。能解决吗？真心谢谢。

账号		自动登录	找回密码
密码			立即注册