`

中文分词算法 之 基于词典的逆向最小匹配算法

阅读更多

在之前的博文中介绍了基于词典的逆向最大匹配算法比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用逆向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢?

 

本文介绍逆向最小匹配算法,该算法和逆向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度。

 

使用逆向最小匹配算法,必须注意的一点是:词典中不能有单字词,词的长度至少为2!我们看逆向最小匹配算法逆向最大匹配算法的代码比较:

 

  

 

切分效果如下:

 

切分句子: 中华人民共和国万岁万岁万万岁
逆向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁]
逆向最小匹配: [中华, 人民, 共和国, 万岁, 万岁, 万, 万岁]
切分句子: 杨尚川是APDPlat应用级产品开发平台的作者
逆向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]
逆向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者]
切分句子: 美国加州大学的科学家发现
逆向最大匹配: [美国加州大学, 的, 科学家, 发现]
逆向最小匹配: [美国, 加州, 大学, 的, 科, 学家, 发现]

 

代码托管于GITHUB

 

参考资料:

1、中文分词十年回顾

2、中文信息处理中的分词问题

3、汉语自动分词词典机制的实验研究

4、由字构词_中文分词新方法

5、汉语自动分词研究评述

 

NUTCH/HADOOP视频教程

 

  • 大小: 345 KB
2
1
分享到:
评论

相关推荐

    中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

    word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。...5、中文分词算法 之 基于词典的逆向最小匹配算法 5、Java开源项目cws_evaluation:中文分词器分词效果评估

    中文分词程序-正向最大匹配算法及逆向最大匹配算法

    运用正向最大匹配算法进行分析,同时也实现了逆向最大匹配,内有分词词典。

    正向最大匹配中文分词算法

    但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本...

    基于正向、逆向的最大分词算法实现

    里面包含完整代码,有词典,解压后是vs2017的工程文件,可直接运用测试。

    正向最大匹配算法实现中文分词

    目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配...

    基于逆向匹配的中文分词

    基于逆向匹配的中文分词算法实现,产生词典和测试数据,分词后具有结果分析功能,计算精确度,召回率,F值

    反向最大匹配算法实现中文分词

    目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了反向最大匹配...

    python实现机械分词之逆向最大匹配算法代码示例

    逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的...

    基于Hash结构的逆向最大匹配分词算法的改进_丁振国1

    (1) 首字 Hash 索引:首字 Hash 函数根据汉字的国标区位 (2)词索引:词索引的每个单元包括两项内容:①所有词长 (3)词典正文:以词为单位的有序表

    浅析常用分词算法的比较与设想

    基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,...

    自然语言处理:中文分词

    (1)逆向最大匹配算法使用的分词词典是逆序词典,里面的每个词都将按逆序方式存放。在实际应用过程中,可以将待分词文本进行倒排处理,从而生成逆序文本,然后再根据逆序词典,对逆序文本用正向最大匹配算法进行...

    中文分词切分技术研究

    本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配 算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短...

    C#,动态规划问题中基于单词搜索树(Trie Tree)的单词断句分词( Word Breaker)算法与源代码

    但有些情况下,没有空格,则需要好的分词算法。 简单的分词算法主要有: 2 正向最大匹配 从左到右尽可能划分出一段连续字符,使得其等于词典中的某个词,然后将这段连续字符提取出来,对余下的部分进行同样的操作...

    基于Python实现三种中文分词方法的性能对比与评分【100011006】

    本学期,我们在自然语言处理课上学习了多种中文分词算法,在本次大作业中,我们选择了其中的三个算法:最大匹配的三种算法--正向、逆向、双向;基于统计的Uni-Gram模型;隐马尔可夫(HMM)统计模型。首先我们将会...

    中文分词开源项目 JAVA中文分词

    algorithmMenu.add(bmmItem = new JRadioButtonMenuItem("逆向最大匹配", false)); ButtonGroup algorithms = new ButtonGroup(); algorithms.add(fmmItem); algorithms.add(bmmItem); ...

    python基础编程:python中文分词教程之前向最大正向匹配算法详解

    英文的分词由于单词间是以空格进行分隔的,所以分词要相对的容易些,而中文就不同了,中文中一个句子的分隔就是以字为单位的了,而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法,这里以词典匹配说明。...

    python中文分词教程之前向最大正向匹配算法详解

    英文的分词由于单词间是以空格进行分隔的,所以分词要相对的容易些,而中文就不同了,中文中一个句子的分隔就是以字为单位的了,而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法,这里以词典匹配说明。...

    中分分词与分词性能评测代码及详细设计文档

    通过本资源了解中文分词的意义,在实现正向、逆向最大匹配分词算法的过程中,加深对自然语言理解原理的探讨兴趣。本资源内含详细的代码设计分档、测试语料、源代码以及多个自己制作的语料库词典,分别实现了正、逆向...

Global site tag (gtag.js) - Google Analytics