鱼C论坛

 找回密码
 立即注册
置顶 ·分享 本人最新博客(包含各种AI算法的原理剖析与实现,模型原理剖析与实现)
2020-6-13 19:32
博客地址: https://www.jianshu.com/u/ac22418e1795 ,欢迎喜欢AI的一起交流学习。鱼C博客至此不在更新。 现在已经更新的有,李航《统计学习方法》算法剖析与代码实现,HMM,CRF,unigram,Bigram,N-gram,word2vec,RNN,LSTM,BI-LSTM,transformer,Bert。
个人分类: 公开|8 次阅读|0 个评论
置顶 ·分享 迁移计划
2019-10-17 13:31
因为鱼C平台各种文本语法无法支持,转入`简书`平台,进行心得分享
个人分类: 公开|405 次阅读|0 个评论
置顶 ·分享 如何培养你沉稳的气质
2019-10-5 11:10
不要随意显露你的情绪 不要逢人就抱怨 征询意见之前自己先思考但不要先讲 不要一有机会就宣泄你的不满 学会讲话不要紧张
个人分类: 个人私密|416 次阅读|0 个评论
分享 16.语言模型
2019-7-24 11:58
词向量模型与语言模型非常紧密地交织在一起。语言模型的质量评估是基于它们对词语用概率分布的表征能力。 事实上,许多最先进的词向量模型都在攻坚的任务就是已有一串词语序列,预测下一个出现的词语将会是什么 语言模型是干嘛的?chunkin ...
个人分类: 自然语言|127 次阅读|0 个评论
分享 15.TF-IDF算法介绍以及应用
2019-7-24 11:34
TF/IDF用以评估字词对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加 随着它在语料库中出现的频率下载 词频词语在文件中出现的次数,一般进行归一化,防止长文件数字过大 逆向文件频率是词语普通重要性的 ...
个人分类: 自然语言|124 次阅读|0 个评论
分享 14.N-GRAM
2019-7-24 11:23
N-GRAM介绍 N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关,(这也是隐马尔可夫当中的假设) 整个句子出现的概率就等于各个词出现的概率乘积,各个词的概率可以通过语料库种统计计算得到。假设句子T是 有词系列w1,w2,w3,...,wn组成,用公式表 ...
个人分类: 自然语言|125 次阅读|0 个评论
分享 13.依存句法与语义依存分析
2019-7-24 11:13
自定义语法与CFG 什么是语法解析? 在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语,谓语,宾语来表示。 在自然语言的处理过程中,由许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。 &nb ...
个人分类: 自然语言|68 次阅读|0 个评论 热度 1
分享 12.基于TextRank关键词提取
2019-7-24 10:27
from jieba import analyse #引入TextRank 关键词抽取接口 textrank = analyse.textrank #原始文本 text = "线程时程序执行时候的最小单位,它是进程的一个执行流,是CPU调度和分流的基本单元,一个进程可以由很多线程组成" print("\nkeywords by textrank:")#基于TextRank关键词提取 keywords ...
个人分类: 自然语言|59 次阅读|0 个评论
分享 11.人民,地名,机构名等关键命名实体识别
2019-7-24 10:06
import jieba import re from grammer.rules import grammer_parse fp = open("text.txt","r",encoding='utf-8') fout = open('out.txt','w',encoding='utf-8') fout.close() if __name__ == "__main__": pass
个人分类: 自然语言|59 次阅读|0 个评论
分享 10.快速掌握NLP技术之分词,词性标注和关键字提取
2019-7-24 08:46
import jieba import re from tokenizer import seg_sentences fp = open("text.txt",'r',encoding='utf-8') fout = open('out.txt','w',encoding='utf=8') for line in fp: line = line.strip() if len(line) 0: &n ...
个人分类: 自然语言|70 次阅读|0 个评论
分享 9.准确分词之动态调整词频和字典
2019-7-24 08:32
import jieba import re jieba.load_userdict("dict.txt") jieba.suggest_freq("台中",tune=True) if __name__ = "__main__": string = "台中正确应该不会被切开" words.jieba.cut(string,HMM=False) result = " ".join(w ...
个人分类: 自然语言|66 次阅读|0 个评论
分享 8.快速掌握NLP,词性标注以及是实名体识别介绍以及应用
2019-7-24 08:07
分词 中文分词(chinese word segmentation)指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字 序列按照一定的规范重新组合成词序列的过程 中文分词是其他中文信息处理的基础,搜索引擎,机器翻译,语音合成,自动分类,自动摘要, ...
个人分类: 自然语言|43 次阅读|0 个评论
分享 7.Hanlp在Python环境中的安装,介绍以及使用
2019-7-23 20:18
Hanlp Hanlp是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用,Hanlp具备功能完善 ,性能高效,架构清晰,语料时新,可自定义的特点 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 ...
个人分类: 自然语言|56 次阅读|0 个评论

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-6 07:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部