在之前的博文中介绍了基于词典的正向最大匹配算法,比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用正向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢?
本文介绍正向最小匹配算法,该算法和正向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度。
使用正向最小匹配算法,必须注意的一点是:词典中不能有单字词,词的长度至少为2!我们看正向最小匹配算法和正向最大匹配算法的代码比较:
切分效果如下:
切分句子: 中华人民共和国万岁万岁万万岁 正向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁] 正向最小匹配: [中华, 人民, 共和, 国, 万岁, 万岁, 万万, 岁] 切分句子: 杨尚川是APDPlat应用级产品开发平台的作者 正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者] 正向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者] 切分句子: 美国加州大学的科学家发现 正向最大匹配: [美国加州大学, 的, 科学家, 发现] 正向最小匹配: [美国, 加州, 大学, 的, 科学, 家, 发现]
参考资料:
1、中文分词十年回顾
相关推荐
但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本...
目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配...
word分词是一个Java实现的中文分词组件,提供了多种基于...4、中文分词算法 之 基于词典的正向最小匹配算法 5、中文分词算法 之 基于词典的逆向最小匹配算法 5、Java开源项目cws_evaluation:中文分词器分词效果评估
运用正向最大匹配算法进行分析,同时也实现了逆向最大匹配,内有分词词典。
里面包含完整代码,有词典,解压后是vs2017的工程文件,可直接运用测试。
分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种逆向最大匹配和双向匹配。本程序实现了反向最大匹配...
英文的分词由于单词间是以空格进行分隔的,所以分词要相对的容易些,而中文就不同了,中文中一个句子的分隔就是以字为单位的了,而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法,这里以词典匹配说明。...
压缩包内容包含了文本分词和文本分类所必需的数据集(10000多份文档)、多份词典(包括停用词),python实现代码以及代码生成日志txt文件。
在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型...
英文的分词由于单词间是以空格进行分隔的,所以分词要相对的容易些,而中文就不同了,中文中一个句子的分隔就是以字为单位的了,而所谓的正向最大匹配和逆向最大匹配便是一种分词匹配的方法,这里以词典匹配说明。...
基于文本匹配的算法又称之为“机械分词算法”,他是它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可识别出一个词。按照扫描方向的不同,...
在实际应用过程中,可以将待分词文本进行倒排处理,从而生成逆序文本,然后再根据逆序词典,对逆序文本用正向最大匹配算法进行处理。 (2)在中文中,由于偏正结构较多,所以从后向前进行匹配会提高精确度,因此,...
基于词典的最大正向/方向匹配算法的JAVA实现,附带Demo窗体和人民日报语料库。觉得可用,自己亲测,可用作为毕设,希望下载后仅自己使用,不要转卖
针对正向最大匹配算法的长词丢失、匹配次数较多、歧义字段处理的准确率较低等问题,基于Trie树词典提出了3种正向增字最大匹配算法,分别使用逐词扫描、尾部折半扫描和尾部减一扫描这3种扫描方式采集歧义字段,并建立...
但有些情况下,没有空格,则需要好的分词算法。 简单的分词算法主要有: 2 正向最大匹配 从左到右尽可能划分出一段连续字符,使得其等于词典中的某个词,然后将这段连续字符提取出来,对余下的部分进行同样的操作...
中文分词词典 适合最大正向匹配算法使用 共计548389条词语
逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的...