`

中文分词效果对比

阅读更多

使用40个句子,在word分词搜狗分词ansj分词之间看看区别有多大。

 

word分词效果:

 

杨尚川 是 apdplat 应用 级 产品 开发 平台 的 作者 
他 说 的 确实 在理 
提高 人民 生活 水平 
他俩 儿 谈恋爱 是从 头年 元月 开始 的 
王府 饭店 的 设施 和 服务 是 一流 的 
和服 务 于 三 日后 裁制 完毕 , 并 呈送 将军 府 中 
研究 生命 的 起源 
他 明天 起身 去 北京 
在 这些 企业 中 国有 企业 有 十个 
他 站 起身 来 
他们 是 来 查 金泰 撞人 那件 事 的 
行 侠 仗义 的 查 金泰 远近 闻名 
长春 市长 春节 致辞 
他 从 马上 摔下 来 了 , 你 马上 下来 一 下 
乒乓球拍 卖完 了 
咬死 猎人 的 狗 
地面 积 了 厚厚 的 雪 
这 几块 地 面积 还 真 不小 
大学生活 象 白纸 
结 合成 分子式 
有 意见 分歧 
发展 中国 家兔 的 计划 
明天 他 将来 北京 
税收制度 将来 会 更 完善 
依靠 群众 才能 做好 工作 
现在 是 施展 才能 的 好 机会 
把手 举 起来 
茶杯 的 把手 断 了 
以 新的 姿态 出 现在 世界 东方 
使 节约粮食 进一步 形成 风气 
反映 了 一 个人 的 精神 面貌 
美国 加州 大学 的 科学 家 发现 
我 好不 挺好 
木 有 
下雨天 留客 天天 留 我 不留 
叔叔 亲 了 我 妈妈 也 亲 了 我 
白马非马 
学生会 写文章 
张掖 市民 陈军 
张掖市 明 乐 县  

 

搜狗分词效果 :

 

杨尚川 是 apdplat 应用 级 产品 开发 平台 的 作者 
他 说 的确 实在 理 
提高 人民 生活 水平 
他 俩 儿 谈恋爱 是 从头 年 元月 开始 的 
王府 饭店 的 设施 和 服务 是 一流 的 
和 服务 于 三 日后 裁 制 完毕 并 呈送 将军府 中 
研究 生命 的 起源 
他 明天 起身 去 北京 
在 这些 企业 中国 有 企业 有 十 个 
他 站 起身 来 
他们 是 来 查 金泰 撞人 那 件 事 的 
行 侠 仗义 的 查 金泰 远近 闻名 
长春 市长 春节 致辞 
他 从 马上 摔下 来了 你 马上 下来 一下 
乒乓球 拍卖 完 了 
咬 死 猎人 的 狗 
地 面积 了 厚厚 的 雪 
这 几块 地 面积 还 真 不 小 
大学生 活象 白纸 
结合 成 分子式 
有 意见 分歧 
发展 中国 家兔 的 计划 
明天 他 将来 北京 
税收 制度 将来 会 更 完善 
依靠 群众 才能 做好 工作 
现在 是 施展 才能 的 好 机会 
把手 举起 来 
茶杯 的 把手 断了 
以 新 的 姿态 出现 在 世界 东方 
使 节约 粮食 进一步 形成 风气
反映 了 一个人 的 精神 面貌 
美国 加州 大学 的 科学家 发现 
我 好 不 挺 好 
木有 
下 雨天 留客 天天 留 我 不留 
叔叔 亲了 我 妈妈 也 亲了 我 
白马 非 马 
学生会 写文章 
张掖 市民 陈军 
张掖市 明 乐 县 

 

ansj分词效果:

 

杨尚川 是 apdplat 应用 级 产品开发 平台 的 作者 
他 说 的 确实 在理 
提高 人民 生活 水平 
他俩 儿 谈恋爱 是从 头年 元月 开始 的 
王府 饭店 的 设施 和 服务 是 一流 的 
和 服务 于 三日 后 裁制 完毕 , 并 呈送 将军 府 中 
研究 生命 的 起源 
他 明天 起身 去 北京 
在 这些 企业 中 国有企业 有 十个 
他 站 起身 来 
他们 是 来 查 金泰 撞 人 那件事 的 
行侠仗义 的 查 金泰 远近闻名 
长春 市长 春节 致辞 
他 从 马上 摔下来 了 , 你 马上 下来 一下 
乒乓球拍 卖完 了 
咬 死 猎人 的 狗 
地面 积 了 厚厚的 雪 
这 几块 地 面积 还 真 不小 
大学 生活 象 白纸 
结合 成 分子式 
有 意见分歧 
发展中国家 兔 的 计划 
明天 他 将来 北京 
税收制度 将来 会 更 完善 
依靠群众 才能 做好 工作 
现在 是 施展才能 的 好 机会 
把手 举 起来 
茶杯 的 把手 断 了 
以 新 的 姿态 出现 在 世界 东方 
使 节约粮食 进一步 形成 风气 
反映 了 一个 人 的 精神面貌 
美国加州大学 的 科学家 发现 
我 好 不 挺 好 
木 有 
下雨天 留客 天天 留 我 不留 
叔叔 亲 了 我 妈妈 也 亲 了 我 
白马非马 
学生会 写文章 
张掖 市民 陈军 
张掖市 明 乐 县 

 

 

 看如下详细对比图(搜狗分词和word分词):

 

 

 

看如下详细对比图(ansj分词和word分词):



 
 

参考资料:

1、word分词

2、搜狗分词

3、ansj分词

  • 大小: 76.1 KB
  • 大小: 69.1 KB
3
0
分享到:
评论

相关推荐

    基于 Java 的中文分词器分词效果评估对比项目

    基于 Java 的中文分词器分词效果评估对比项目。它主要实现了以下功能: 分词效果评估:用户可以通过程序对比不同分词器的分词结果,以及计算分词速度、行数完美率、行数错误率、字数完美率、字数错误率等指标。 ...

    cws_evaluation, Java开源项目cws_evaluation:中文分词器分词效果评估对比.zip

    cws_evaluation, Java开源项目cws_evaluation:中文分词器分词效果评估对比

    各类分词器合集!!!!!

    中文分词开源项目 JAVA中文分词 中文分词开源项目 JAVA中文分词 一个当10个

    大数据ES数据存储,查询之IK中文分词器

    对于ES IK分词插件在中文检索中非常常用,本人也使用了挺...本文包括前言、IK分词介绍、分词效果对比、自定义词典使用、索引设置和字段设置(Python 创建索引并导入数据)、查询测试(Python 查询)、结论等七个部分。

    论文研究-基于粗分和词性标注的中文分词方法.pdf

    中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过...通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。

    基于BiLSTM-CRF的中文分词及命名实体识别.zip

    在实验中实现中文分词处理,可考虑使用课堂讲解过的算法(比如基于统计、基于词典的分词方法等),或者课外学习算法(比如Bi-LSTM+CRF模型等)进行分词,最后对比不同算法分词效果和性能,加深对中文分词算法的理解...

    中文地名分词+地名词典创建工具

    1、创建了两种词典树,做了性能上的比较 2、改进数字词组的分词方法,加入语法的判断 3、提供地名词典创建工具。将地名全名词典分词获得分词后的地名词典,减少词条数目,增加查找速度。程序用一个中等省会城市...

    VicWord 一个纯php的分词

    三种分词结果对比 $fc = new VicWord('igb'); $arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒'); //北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒 //$arr 是一个数组 每个...

    lucene 中文分词 庖丁解牛

    庖丁解牛(很好的分词效率) 在做站内全文检索时创建索引时比较快,而且感觉效果比JE要好一些。。

    pscws23-20081221.tar.bz2【中文分词】

    php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第...

    论文研究-吕苏语口语标注语料的自动分词方法研究.pdf

    濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为...经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。

    论文研究-综合最大匹配和歧义检测的中文分词粗分方法.pdf

    中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉...通过公共语料库数据集的实验对比,取得很好的效果。

    [易语言]基于词典的中文句子分词断句,带例程及词典

    基于词典的中文句子分词断句,算法比较简单,如果加入连接词处理及词性处理的话效果应该会好很多

    一种基于LUCENE的中文分词算法研究倡 (2011年)

    通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都...

    wordcut:一个基于词典的前缀扫描中文分词

    这些比较高级的分词技术反而成为了不必要的风险。 另外还有一个原因是,流行的分词技术对多用户词典和词典的动态管理支持也不是很好。本项目就实现了一个可以多词典间相互隔离的分词工具。 基于前缀词典树的中文分词...

    Lucene 3.6 学习笔记

    (4) 中文分词效果 19 4.2 分词原理 21 (1) TokenStream 21 (2) Tokenizer 22 (3) TokenFilter 23 4.3 分词属性 23 (1) 分词属性查看 24 (2) 分词属性对比 25 4.4 自定义分词器 26 (1) 自定义Stop分词器 26 (2) 实现...

    stopwords.txt

    最全停用词表,现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac...在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。

    基于预分类的高效SVM网页分类器

    其分类思想简单和分类效果较好,成为一种比较优秀的网页分类算法。 本次设计使用 Java 语言来实现网页分类器,根据软件工程开发的方法,对系统依次 进行需求分析,概要设计,详细设计,编码,测试,最终开发出一个...

    zici:字词:收集国学汉语字词拼音相关资源

    zici 收集国学/汉语字词拼音相关资源,以备研究学习使用,欢迎补充。 离线采集性资源 ...有哪些比较好的中文分词方案? 11 款开放中文分词引擎大比拼 中文数据挖掘、自然语言处理 THULAC:一个高效的中文

    哪种方法在新单词检测,基于字符或基于中文分词方面表现更好?

    对于大型语料库的情况,由于没有注解语料库的无穷大,因此比较实验无法进行评估。 因此,本文提出了一种实用的定量模型,用于分析和评估NWD在各种情况下(尤其是在大型语料库情况下)的性能。 研究表明,实验结果与...

Global site tag (gtag.js) - Google Analytics