`

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

阅读更多

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。

 

word分词器分词效果评估主要评估下面7种分词算法:

 

正向最大匹配算法:MaximumMatching
逆向最大匹配算法:ReverseMaximumMatching
正向最小匹配算法:MinimumMatching
逆向最小匹配算法:ReverseMinimumMatching
双向最大匹配算法:BidirectionalMaximumMatching
双向最小匹配算法:BidirectionalMinimumMatching
双向最大最小匹配算法:BidirectionalMaximumMinimumMatching

 

所有的双向算法都使用ngram来消歧,分词效果评估分别评估bigramtrigram

 

查看原文

 

  • evaluation.rar (6.5 MB)
  • 描述: ansj、mmseg4j和ik-analyzer的评估程序
  • 下载次数: 154
3
1
分享到:
评论

相关推荐

    基于 Java 的中文分词器分词效果评估对比项目

    分词器支持:用户可以通过程序选择不同的分词器进行评估,目前支持的分词器有 word、HanLP、Ansj、smartcn、Jieba、Jcseg、MMSeg4j、IKAnalyzer 等。 数据集使用:用户可以通过程序使用不同的数据集进行评估,目前...

    ansj中文分词工具

    最新2015年的java工程的ansj中文分词工具 myeclipse工程

    elasticsearch-2.3.1 ik ansj head

    elasticsearch-2.3.1 集成了 ik分词 ansj分词 head

    ANSJ中文分词器

    aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟

    elasticsearch-analysis-ansj-5.2.2.0-release.zip

    elasticsearch-analysis-ansj-5.2.2.0-release 扩展jar包

    ansj分词ansj_seg-5.1.5.jar

    ansj分词配置jar包,结合nlp-lang的配置jar使用。

    Ansj中文分词(强大)

    Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

    ansj elasticsearch 分词插件

    ansj elasticsearch 分词

    Ansj中文分词

    Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...

    分词工具ANSJ 1.3版本

    具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本,需要配合另一个tree-split jar包使用,请从这里下载:http://maven.ansj.org/org/ansj/

    ansj_seg-5.1.3.jar

    最新的ansj分词工具jar包,用于在ecplise中使用ansj分词。ansj是由孙健开发的一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。目前实现了...

    mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器,动态加载词库.zip

    mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器,动态加载词库

    ansj分词器手册

    ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    ansj中文分词器源码

    分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

    springMVC+ansj中文分词

    springMVC+mybatis+自动摘要+ansj中文分词+关键词匹配规则等等

    ansj分词 jar包

    ansj 分词所需jar包,包括ansj_seg-5.1.1.jar 、ansj_seg-5.1.1-sources.jar、nlp-lang-1.7.2.jar、nlp-lang-1.7.2-sources.jar、pinyin4j-2.5.0.jar

    ansj分词工具所需jar包(最新)

    这是目前来说最新的ansj分词jar包,导入即可使用

    Ansj分词工具包

    用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。 用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时,程序中自带的jar包路径可能不正确,须将两个jar包删除,然后...

Global site tag (gtag.js) - Google Analytics