python文本分析主题模型

chunguang · 发表于 2018-9-4 11:10:01

您需要登录才可以下载或查看，没有账号？立即注册

x

在做主题模型的时候，出现了以下的现象，求大神：

text = open(r'C:\Users\lenovo\Desktop\自然语言处理\白沙分词.txt', 'r', encoding='gbk').read()
dictionary = corpora.Dictionary([text])
print(dictionary.token2id)

复制代码

错误如下：

程序员的救赎 · 发表于 2018-9-4 12:14:51

dictionary = corpora.Dictionary([[text]])

chunguang · 发表于 2018-9-4 16:00:30

程序员的救赎发表于 2018-9-4 12:14
dictionary = corpora.Dictionary([[text]])

我还想请问一下，做主题模型之前的数据是分好词的把

程序员的救赎 · 发表于 2018-9-4 17:58:48

本帖最后由程序员的救赎于 2018-9-4 18:01 编辑

chunguang 发表于 2018-9-4 16:00
我还想请问一下，做主题模型之前的数据是分好词的把

没分的话，自己分一下就好了。

chunguang · 发表于 2018-9-4 18:31:13

程序员的救赎发表于 2018-9-4 17:58
没分的话，自己分一下就好了。

但我在做完以后，主题词只有一个，是怎回事？而且还有以下提醒

程序员的救赎 · 发表于 2018-9-4 18:52:18

chunguang 发表于 2018-9-4 18:31
但我在做完以后，主题词只有一个，是怎回事？而且还有以下提醒

把完整的代码和数据上传过来。

chunguang · 发表于 2018-9-4 19:45:23

程序员的救赎发表于 2018-9-4 18:52
把完整的代码和数据上传过来。

from gensim import corpora,models
text = open(r'C:\Users\lenovo\Desktop\自然语言处理\白沙分词.txt', 'r', encoding='gbk').read()
dictionary = corpora.Dictionary([[text]])
print(dictionary.token2id)
corpus = [dictionary.doc2bow([corpus]) for corpus in text]
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
total_topics = 2
lsi = models.LsiModel(corpus_tfidf,id2word=dictionary,num_topics=total_topics)
for index, topic in lsi.print_topics(total_topics):
print('Topic #'+str(index+1))
print(topic)

复制代码

程序员的救赎 · 发表于 2018-9-6 00:42:24

本帖最后由程序员的救赎于 2018-9-6 00:46 编辑

应该跟你前面语料没有分词有关，我刚看完了corpora的文档内容，
增加了分词的代码，由于主题模型我还没做过，
你先试着增加分词后再思考思考

from gensim import corpora,models
import jieba
text = open(r'C:\Users\asus\Desktop\白沙分词.txt', 'r', encoding='gbk').readlines() # 不懂的在www.baidu.com输入 'read(), readline(), readlines()的区别'
print(text)
word_list = []
for i in text:
word_list.extend(list(jieba.cut(i))) # 用结巴分词
word_list = [word for word in word_list if word.strip()] # 去除多余的换行符跟空格
print(word_list)
dictionary = corpora.Dictionary([word_list])
print(dictionary.token2id)

复制代码

还有你的报错信息，翻译如下：
RuntimeWarning：在true_divide中遇到无效值

原因分析在百度上找得到。

chunguang · 发表于 2018-9-6 14:35:23

程序员的救赎发表于 2018-9-6 00:42
应该跟你前面语料没有分词有关，我刚看完了corpora的文档内容，
增加了分词的代码，由于主题模型我还没做 ...

问题是我这个已经是分完词的了

账号		自动登录	找回密码
密码			立即注册

python文本分析 主题模型