利用word分词来计算文本相似度

yangshangchuan

浏览: 2450205 次
性别:
来自: 北京

最近访客更多访客>>

akingde

feilafei123

wf_chn

hero.niu_126.com

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

word分词

word word分词文本相似度余弦相似度简单共有词

word分词提供了多种文本相似度计算方式：

方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度

实现类：org.apdplat.word.analysis.CosineTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new CosineTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.67
我爱购物 和 他是黑客 的相似度分值：0.0
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.0
他是黑客 和 他是黑客 的相似度分值：1.0

方式二：简单共有词，通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估他们的相似度

实现类：org.apdplat.word.analysis.SimpleTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimpleTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.5
我爱购物 和 他是黑客 的相似度分值：0.0
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.0
他是黑客 和 他是黑客 的相似度分值：1.0

方式三：编辑距离，通过计算两个字串之间由一个转成另一个所需的最少编辑操作次数来评估他们的相似度

实现类：org.apdplat.word.analysis.EditDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
Similarity textSimilarity = new EditDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.5
我爱购物 和 他是黑客 的相似度分值：0.0
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.0
他是黑客 和 他是黑客 的相似度分值：1.0

方式四：SimHash + 汉明距离，先使用SimHash把不同长度的文本映射为等长文本，然后再计算等长文本的汉明距离

实现类：org.apdplat.word.analysis.SimHashPlusHammingDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new SimHashPlusHammingDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.95
我爱购物 和 他是黑客 的相似度分值：0.83
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.86
他是黑客 和 他是黑客 的相似度分值：1.0

方式五：Jaccard相似性系数，通过计算两个集合交集的大小除以并集的大小来评估他们的相似度

实现类：org.apdplat.word.analysis.JaccardTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new JaccardTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.5
我爱购物 和 他是黑客 的相似度分值：0.0
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.0
他是黑客 和 他是黑客 的相似度分值：1.0

方式六：欧几里得距离（Euclidean Distance），通过计算两点间的距离来评估他们的相似度

实现类：org.apdplat.word.analysis.EuclideanDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new EuclideanDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.41
我爱购物 和 他是黑客 的相似度分值：0.29
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.29
他是黑客 和 他是黑客 的相似度分值：1.0

方式七：曼哈顿距离（Manhattan Distance），通过计算两个点在标准坐标系上的绝对轴距总和来评估他们的相似度

实现类：org.apdplat.word.analysis.ManhattanDistanceTextSimilarity

用法如下：

String text1 = "我爱购物";
String text2 = "我爱读书";
String text3 = "他是黑客";
TextSimilarity textSimilarity = new ManhattanDistanceTextSimilarity();
double score1pk1 = textSimilarity.similarScore(text1, text1);
double score1pk2 = textSimilarity.similarScore(text1, text2);
double score1pk3 = textSimilarity.similarScore(text1, text3);
double score2pk2 = textSimilarity.similarScore(text2, text2);
double score2pk3 = textSimilarity.similarScore(text2, text3);
double score3pk3 = textSimilarity.similarScore(text3, text3);
System.out.println(text1+" 和 "+text1+" 的相似度分值："+score1pk1);
System.out.println(text1+" 和 "+text2+" 的相似度分值："+score1pk2);
System.out.println(text1+" 和 "+text3+" 的相似度分值："+score1pk3);
System.out.println(text2+" 和 "+text2+" 的相似度分值："+score2pk2);
System.out.println(text2+" 和 "+text3+" 的相似度分值："+score2pk3);
System.out.println(text3+" 和 "+text3+" 的相似度分值："+score3pk3);

运行结果如下：

我爱购物 和 我爱购物 的相似度分值：1.0
我爱购物 和 我爱读书 的相似度分值：0.33
我爱购物 和 他是黑客 的相似度分值：0.14
我爱读书 和 我爱读书 的相似度分值：1.0
我爱读书 和 他是黑客 的相似度分值：0.14
他是黑客 和 他是黑客 的相似度分值：1.0

1
顶

2
踩

分享到：

利用word分词来对文本进行词频统计 | jsearch的索引文件结构

2015-05-20 06:39
浏览 58317
评论(1)
分类:开源软件
查看更多

1 楼 tkl211 2015-12-23

文本相似度的只有1.3版本提供吗？现在工程还是jdk1.7，没法使用word1.3版本。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论