DAY的日志 - 第6页 - 鱼C论坛 - Powered by Discuz!

设为首页收藏本站

切换到窄版

鱼C论坛 › DAY › 日志

DAY

https://fishc.com.cn/?338231

个人私密| 公开| 自然语言| 特殊字符| Linux| Python| Software| DruidPool| apache| Java| 数仓| Markdown|

置顶 ·分享本人最新博客（包含各种AI算法的原理剖析与实现，模型原理剖析与实现）: 2020-6-13 19:32; 博客地址： https://www.jianshu.com/u/ac22418e1795 ，欢迎喜欢AI的一起交流学习。鱼C博客至此不在更新。现在已经更新的有，李航《统计学习方法》算法剖析与代码实现，HMM，CRF，unigram，Bigram，N-gram，word2vec，RNN，LSTM，BI-LSTM，transformer，Bert。; 个人分类: 公开|8 次阅读|0 个评论

置顶 ·分享迁移计划: 2019-10-17 13:31; 因为鱼C平台各种文本语法无法支持，转入`简书`平台，进行心得分享; 个人分类: 公开|405 次阅读|0 个评论

置顶 ·分享如何培养你沉稳的气质: 2019-10-5 11:10; 不要随意显露你的情绪不要逢人就抱怨征询意见之前自己先思考但不要先讲不要一有机会就宣泄你的不满学会讲话不要紧张; 个人分类: 个人私密|416 次阅读|0 个评论

分享 16.语言模型: 2019-7-24 11:58; 词向量模型与语言模型非常紧密地交织在一起。语言模型的质量评估是基于它们对词语用概率分布的表征能力。事实上，许多最先进的词向量模型都在攻坚的任务就是已有一串词语序列，预测下一个出现的词语将会是什么语言模型是干嘛的？chunkin ...; 个人分类: 自然语言|127 次阅读|0 个评论

分享 15.TF-IDF算法介绍以及应用: 2019-7-24 11:34; TF/IDF用以评估字词对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加随着它在语料库中出现的频率下载词频词语在文件中出现的次数，一般进行归一化，防止长文件数字过大逆向文件频率是词语普通重要性的 ...; 个人分类: 自然语言|124 次阅读|0 个评论

分享 14.N-GRAM: 2019-7-24 11:23; N-GRAM介绍 N-Gram是基于一个假设：第n个词出现与前n-1个词相关，而与其他任何词不相关，（这也是隐马尔可夫当中的假设）整个句子出现的概率就等于各个词出现的概率乘积，各个词的概率可以通过语料库种统计计算得到。假设句子T是有词系列w1，w2，w3,...,wn组成，用公式表 ...; 个人分类: 自然语言|125 次阅读|0 个评论

分享 13.依存句法与语义依存分析: 2019-7-24 11:13; 自定义语法与CFG 什么是语法解析？在自然语言学习过程中，每个人一定都学过语法，例如句子可以用主语，谓语，宾语来表示。在自然语言的处理过程中，由许多应用场景都需要考虑句子的语法，因此研究语法解析变得非常重要。 &nb ...; 个人分类: 自然语言|68 次阅读|0 个评论热度 1

分享 12.基于TextRank关键词提取: 2019-7-24 10:27; from jieba import analyse #引入TextRank 关键词抽取接口 textrank = analyse.textrank #原始文本 text = "线程时程序执行时候的最小单位，它是进程的一个执行流，是CPU调度和分流的基本单元，一个进程可以由很多线程组成" print("\nkeywords by textrank:")#基于TextRank关键词提取 keywords ...; 个人分类: 自然语言|59 次阅读|0 个评论

分享 11.人民，地名，机构名等关键命名实体识别: 2019-7-24 10:06; import jieba import re from grammer.rules import grammer_parse fp = open("text.txt","r",encoding='utf-8') fout = open('out.txt','w',encoding='utf-8') fout.close() if __name__ == "__main__": pass; 个人分类: 自然语言|59 次阅读|0 个评论

分享 10.快速掌握NLP技术之分词，词性标注和关键字提取: 2019-7-24 08:46; import jieba import re from tokenizer import seg_sentences fp = open("text.txt",'r',encoding='utf-8') fout = open('out.txt','w',encoding='utf=8') for line in fp: line = line.strip() if len(line) 0: &n ...; 个人分类: 自然语言|70 次阅读|0 个评论

分享 9.准确分词之动态调整词频和字典: 2019-7-24 08:32; import jieba import re jieba.load_userdict("dict.txt") jieba.suggest_freq("台中",tune=True) if __name__ = "__main__": string = "台中正确应该不会被切开" words.jieba.cut(string,HMM=False) result = " ".join(w ...; 个人分类: 自然语言|66 次阅读|0 个评论

分享 8.快速掌握NLP，词性标注以及是实名体识别介绍以及应用: 2019-7-24 08:07; 分词中文分词（chinese word segmentation）指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程中文分词是其他中文信息处理的基础，搜索引擎，机器翻译，语音合成，自动分类，自动摘要， ...; 个人分类: 自然语言|43 次阅读|0 个评论

分享 7.Hanlp在Python环境中的安装，介绍以及使用: 2019-7-23 20:18; Hanlp Hanlp是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用，Hanlp具备功能完善，性能高效，架构清晰，语料时新，可自定义的特点功能：中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类 ...; 个人分类: 自然语言|56 次阅读|0 个评论

1 2 3 4 567 / 7 页下一页

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-6 07:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部