word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估 - 杨尚川的博客 - ITeye博客

`

yangshangchuan

浏览: 2450146 次
性别:
来自: 北京

最近访客更多访客>>

akingde

feilafei123

wf_chn

hero.niu_126.com

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：你好, 根据机器码计算注册码的代码是在哪个包下的哪个类了.
APDPlat中的机器码生成机制
masuweng：我的那个项目跑起来为什么503了
APDPlat中的机器码生成机制
masuweng：
APDPlat中的机器码生成机制
liutaochn：可以用，thanks
Cygwin运行nutch报错：Failed to set permissions of path
qbuer： The Google Web Search API is no ...
使用Java调用谷歌搜索

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

博客分类：

人工智能

word分词 word分词器 word分词组件 word分词库中文分词开源中文分词 Java中文分词

阅读更多

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。

word分词器分词效果评估主要评估下面7种分词算法：

正向最大匹配算法：MaximumMatching
逆向最大匹配算法：ReverseMaximumMatching
正向最小匹配算法：MinimumMatching
逆向最小匹配算法：ReverseMinimumMatching
双向最大匹配算法：BidirectionalMaximumMatching
双向最小匹配算法：BidirectionalMinimumMatching
双向最大最小匹配算法：BidirectionalMaximumMinimumMatching

所有的双向算法都使用ngram来消歧，分词效果评估分别评估bigram和trigram。

evaluation.rar (6.5 MB)
描述: ansj、mmseg4j和ik-analyzer的评估程序
下载次数: 154

3
顶

1
踩

分享到：

Java分布式中文分词组件 - word分词 | 中文分词效果对比

2014-04-29 09:33
浏览 7459
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于 Java 的中文分词器分词效果评估对比项目: 分词器支持：用户可以通过程序选择不同的分词器进行评估，目前支持的分词器有 word、HanLP、Ansj、smartcn、Jieba、Jcseg、MMSeg4j、IKAnalyzer 等。数据集使用：用户可以通过程序使用不同的数据集进行评估，目前...

ansj中文分词工具: 最新2015年的java工程的ansj中文分词工具 myeclipse工程

elasticsearch-2.3.1 ik ansj head: elasticsearch-2.3.1 集成了 ik分词 ansj分词 head

ANSJ中文分词器: aAnsj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟

elasticsearch-analysis-ansj-5.2.2.0-release.zip: elasticsearch-analysis-ansj-5.2.2.0-release 扩展jar包

ansj分词ansj_seg-5.1.5.jar: ansj分词配置jar包，结合nlp-lang的配置jar使用。

Ansj中文分词（强大）: Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”。内容简介：http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

ansj elasticsearch 分词插件: ansj elasticsearch 分词

Ansj中文分词: Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现，具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右（Mac Air下测试），准确率能达到96%以上。 ...

分词工具ANSJ 1.3版本: 具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本，需要配合另一个tree-split jar包使用，请从这里下载：http://maven.ansj.org/org/ansj/

ansj_seg-5.1.3.jar: 最新的ansj分词工具jar包，用于在ecplise中使用ansj分词。ansj是由孙健开发的一个基于n-Gram+CRF+HMM的中文分词的java实现。分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。目前实现了...

mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器，动态加载词库.zip: mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器，动态加载词库

ansj分词器手册: ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

ansj中文分词器源码: 分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记等功能

springMVC+ansj中文分词: springMVC+mybatis+自动摘要+ansj中文分词+关键词匹配规则等等

ansj分词 jar包: ansj 分词所需jar包，包括ansj_seg-5.1.1.jar 、ansj_seg-5.1.1-sources.jar、nlp-lang-1.7.2.jar、nlp-lang-1.7.2-sources.jar、pinyin4j-2.5.0.jar

ansj分词工具所需jar包（最新）: 这是目前来说最新的ansj分词jar包，导入即可使用

Ansj分词工具包: 用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时，程序中自带的jar包路径可能不正确，须将两个jar包删除，然后...

Global site tag (gtag.js) - Google Analytics