鱼C论坛

 找回密码
 立即注册

7.Hanlp在Python环境中的安装,介绍以及使用

已有 56 次阅读2019-7-23 20:18 |个人分类:自然语言

Hanlp
    Hanlp是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用,Hanlp具备功能完善
    ,性能高效,架构清晰,语料时新,可自定义的特点
    功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类
    拼音简繁

    Hanlp环境安装
        1.安装Java和visual C++:我装的是Java 1.8 和visual C++2015
        2.安装jpype,conda install -c conda-forge jpye1
        3.测试是否安装成功
        from jpype import *
        startJVM(getDefaultJVMPath(),'-ea')
        java.lang.System.out.println("Hello world")
        shutdownJVM()

    Hanlpan安装
    1、下载:data.zip
        下载后解压到任意目录,接下来通过配置文件告诉HanLP数据包的位置。

        HanLP中的数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的。

        data
        │
        ├─dictionary
        └─model
        用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

        模型跟词典没有绝对的区别,隐马模型被做成人人都可以编辑的词典形式,不代表它不是模型。
        GitHub代码库中已经包含了data.zip中的词典,直接编译运行自动缓存即可;模型则需要额外下载。
    2、下载jar和配置文件:hanlp-release.zip
        配置文件的作用是告诉HanLP数据包的位置,只需修改第一行

        root=D:/JavaProjects/HanLP/
        为data的父目录即可,比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。

        最后将hanlp.properties放入classpath即可,对于多数项目,都可以放到src或resources目录下,编译时IDE会自动将其复制到classpath中。除了配置文件外,还可以使用环境变量HANLP_ROOT来设置root。安卓项目请参考demo。

        如果放置不当,HanLP会提示当前环境下的合适路径,并且尝试从项目根目录读取数据集。

路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 04:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部