`
文章列表
word分词提供了多种文本相似度计算方式: 方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度 实现类:org.apdplat.word.analysis.CosineTextSimilarity 用法如下: String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 = "他是黑客"; TextSimilarity textSimilarity = new CosineTextSimilarity(); double score1pk1 = ...
jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。   jsearch的索引文件结构定义如下:     1、一个词的索引由=分割的三部分组成:        第一部分是词        第二部分是这个 ...
我的开源项目托管在Github,同时在Git@OSC也有备份,有两个地方,是不是很麻烦呢?非也非也,下面介绍一下我是怎么做的。   1、先在Github新建一个项目,点击Github主页右上角的加号 -> New Repository,接着输入Repository name:jsearch,最后点击页面最下面的Create repository按钮,搞定。   2、接着我们在本地检出刚在Github新建的项目,我们切换到本地机器的工作目录,然后执行命令: git clone https://github.com/ysc/jsearch.git   3、下面点击Git@ ...
在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1、把要分词的 ...
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。   在1.1中,将9大中文分词器都升级到了最新版本,并采用Maven构建项目,增加了方便用户的运行脚本,且新增了交互式分词效果对比功能,同时也对分词代码做了优化和改进。   更多细节参考cws_evaluation项目主页   
本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** * 获取文本的所有分词结果, 对比不同分词器结果 * @author 杨尚川 */ public interface WordSegmenter { /** * 获取文本的所有分词结果 * ...
  在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 ...
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 ​ 一丘之貉 比众不同 一丝不苟 草草了事 粗心大意 敷衍了事 粗枝大叶 一举两得 事倍功半 顾此失彼 一了百了 没完没了 ...
这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。 消除歧义的目的就是从切分结果中挑选切分正确的。 假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下:
在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢? 下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词: 人名识别:[我, 爱, 杨, 尚, 川] 识别到人名:爱杨尚 识别到人名:杨尚川 识别到人名:尚川 开始从多个识别结果中选择一个最佳的结果:[[我, 爱杨尚/nr, 川], [我, 爱, 杨尚川/nr], [我, 爱, 杨, 尚川/nr]] 1、开始处理:[我, 爱杨尚/nr, 川] 忽略已经标注过的词: ...
这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一下子 一会儿 一忽儿 转瞬 须臾 一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟 一丝一毫 一点一滴 一丝不挂 寸丝不挂 袒裼裸裎 赤身露体 一丝不苟 小心翼翼 小心谨慎 尽心竭力 精益求精 谨小慎微 一举两得 一石二鸟 一箭双雕 一箭双鵰 两全其美 面面俱到 一举成名 一飞冲天 一鸣惊人 平地一声雷 石破天惊 飞必冲天 一些 少少 少许 极少 一会儿 一下子 一刹 一忽儿 一霎 俄顷 已而 斯须 片刻 瞬息 转瞬 霎时 须臾 一再 再三 几次 反复 屡屡 ...
“任何时候都不应该明文显示和存储密码”,我想这个原则是一个稍微有点安全常识的人都懂的,那么在Java应用中,如何最简单最方便地保护你的应用的数据呢? 本文我们以数据库的用户名和密码为例子,来讲解在APDPlat中我们如何使用开源项目Jasypt来实现加解密。 首先,我们引入依赖库,使用Maven方式如下: <dependency> <groupId>org.jasypt</groupId> <artifactId>jasypt</artifactId> <version>1.5< ...
假设我们有一个配置文件config.properties,取自APDPlat的主配置文件: #主配置文件 #是否启用WEB目录文件增加和删除监控 watch.directory.enable=true #用户密码安全策略 user.password.strategy=passwordLengthStrategy;passwordComplexityStrategy #如果启用数据库配置,则数据库中的配置信息有最高优先级,会覆盖配置文件的配置信息 config.db.enable=true #用配置文件中的信息强行覆盖数据库中的配置信息 config.db.ove ...
最近我在将APDPlat升级到Java8,由于之前有很多的同学希望我把APDPlat的struts2替换为spring mvc,所以我就决定试试看。   本次我把APDPlat的struts2改造为spring mvc的目标是:99.99%不改动JS、HTML、JSP等前端代码,只改JAVA代码!所以大家要先理解我的目标,然后再来看我的做法。   本文我们看两个转换前后的例子:   1、下拉列表服务,此类比较简单,只涉及一个方法store:
1、我们使用的版本是Eclipse4.4.2 for JavaEE Web Developers,支持Java8,安装的JDK需要1.8:  2、我们先点击菜单中的File -> Import...,然后选择Git -> Projects from Git,从Git数据源导入项目:  3、从远程URI加载数据:  4、将项目FORK到自己的GITHUB主页,如何FORK参考这里的入门指南链接,然后从自己的GITHUB账户下检出代码,要将下面的ysc换成你的GITHUB账户名称:  5、选择本地保存路径:  
Global site tag (gtag.js) - Google Analytics