鱼C论坛

 找回密码
 立即注册
查看: 149|回复: 3

lda分析前的文本预处理卡住了(上个帖子代码复制漏了重新发)

[复制链接]
发表于 2024-3-22 08:52:48 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import os
import pandas as pd
import re
import jieba
import jieba.posseg as psg   #导入lda分析需要的一系列包

output_path = 'D:/文本挖掘'  #把结果输出到该路径下
file_path = 'C:/Users/m/Desktop' #数据所在路径
os.chdir(file_path)
data=pd.read_excel("数据2.xlsx")#content type
os.chdir(output_path)
dic_file = "D:/自然语言处理/dict.txt"    #字典路径
stop_file = "D:/自然语言处理/stopwords.txt" #停用词路径

def chinese_word_cut(mytext):   #对数据进行中文分词
    jieba.load_userdict(dic_file)
    jieba.initialize()
    try:
        stopword_list = open(stop_file,encoding ='utf-8')  #防止出现乱码错误,故指定编码类型为'utf-8'
    except:
        stopword_list = []
        print("error in stop_file")
    stop_list = []
    flag_list = ['n','nz','vn']
    for line in stopword_list:
        line = re.sub(u'\n|\\r', '', line)
        stop_list.append(line)
   
    word_list = []
    #jieba分词
    seg_list = psg.cut(mytext)
    for seg_word in seg_list:
        word = re.sub(u'[^\u4e00-\u9fa5]','',seg_word.word)
        word = seg_word.word  #如果想要分析英语文本,注释这行代码,启动下行代码
        find = 0
        for stop_word in stop_list:
            if stop_word == word or len(word)<2:     #this word is stopword
                    find = 1
                    break
        if find == 0 and seg_word.flag in flag_list:
            word_list.append(word)      
    return (" ").join(word_list)
data["content_cutted"] = data.content.apply(chinese_word_cut)
#使用apply函数不断调用以上函数批量处理全部文本(正文)信息
data.content_cutted.head()
#查看文本是否已被正确分词
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-3-22 08:53:11 | 显示全部楼层
看起来你的代码在进行中文分词时卡住了,我看到可能有几个地方出了问题。

首先,你没有把要分词的文本传递给`chinese_word_cut`函数。你需要在调用函数的时候,传递一个参数,例如:
  1. python
  2. text = "这是要进行分词的文本"
  3. chinese_word_cut(text)
复制代码


其次,你需要确保你的字典文件`dict.txt`和停用词文件`stopwords.txt`存在,并且路径正确。如果文件不存在或路径错误,程序会出现错误。

第三,当你打开停用词文件时,你使用了`open(stop_file,encoding ='utf-8')`,但是你没有提供`except`后面的代码。你需要编写处理打开文件失败的错误处理代码。

最后,你创建了一些空列表,但是没有给它们赋值。你需要在循环中将数据添加到这些列表中:
  1. python
  2. stop_list = []
  3. flag_list = []
  4. word_list = []

  5. # 在循环中添加数据到列表
  6. for seg_word in seg_list:
  7.     word = re.sub(u'','',seg_word.word)
  8.     word = seg_word.word
  9.     find = 0
  10.     for stop_word in stop_list:
  11.         if stop_word == word or len(word) < 2:
  12.             find = 1
  13.             break
  14.     if not find:
  15.         word_list.append(word)
  16.         flag_list.append(seg_word.flag)
复制代码


希望这些解决方案能够帮助到你!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-3-22 09:38:11 | 显示全部楼层
FishC 发表于 2024-3-22 08:53
看起来你的代码在进行中文分词时卡住了,我看到可能有几个地方出了问题。

首先,你没有把要分词的文本传 ...

没用,运行还是卡住了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-3-22 09:38:30 | 显示全部楼层
roro0209 发表于 2024-03-22 09:38
没用,运行还是卡住了


很抱歉你还是遇到了问题。如果你的代码还是卡住了,可能有几个原因:

1. 数据量过大:如果你的文本数据非常大,可能会导致分词过程运行时间很长甚至卡死程序。你可以尝试使用一个小一些的数据集来测试代码是否正常工作。

2. 字典和停用词文件的格式问题:请确保`dict.txt`和`stopwords.txt`文件的格式正确。尤其要注意文件编码是否和代码中指定的一致(比如都是UTF-8)。

3. Jieba分词库版本问题:你可以尝试更新Jieba分词库的版本。可以使用`pip install -U jieba`命令来更新分词库。

4. 内存不足:如果你的计算机内存较小,处理大量文本时可能出现内存不足的情况。你可以尝试分批处理文本,而不是一次性加载所有文本数据。

如果以上方法都不起作用,我建议你在代码中添加一些打印语句来进行调试,找出代码卡住的具体位置。例如,在`chinese_word_cut`函数中添加一些打印语句,输出每个步骤的结果,以及卡住的位置。

希望这些提示能帮助你解决问题!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 23:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表