`
文章列表
  在我多年的开发经验中,经常发现的一个情况就是,很多项目的对象字段或者是数据库字段本来是数字类型的,却被定义成字符串类型,这无关痛痒吗? 对于小项目来说,可能没什么影响,反正只要业务逻辑正确即可,性 ...
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。 word1.3新增了大量功能,如:词频统 ...
昨晚和朋友聊天,喝了点咖啡,由于我经常喝茶,很长时间没喝咖啡了,所以失眠了,于是起床读JVM规范,读完后在朋友圈发了一条信息: JVM Run-Time Data Areas:The Java Virtual Machine defines various run-time data areas that are used during exec ...
实现代码如下: import java.util.LinkedHashMap; import java.util.Map; /** * LRU (Least Recently Used) 算法的Java实现 * @param <K> * @param <V> * @author 杨尚川 */ public class LRUCache<K, V> extends LinkedHashMap<K, V> { //缓存大小 private int cacheSize; public L ...
superword   BBC:http://www.bbc.co.uk/learningenglish/    BBC课程下载(百度网盘)  BBC ON YOUTUBE  VOA:http://learningenglish.voanews.com/   VOA ON YOUTUBE   11个老师,几百个小时覆盖初中高级的免费英语学习视频:http://www.engvid.com/english-lessons/
When two words are confused for one another the results can sometimes be comical, for example when affluent is confused with effluent or desert with dessert. On other occasions mix-ups between commonly confused words can result in a situation that isn't so funny, for example when two words with alm ...
1、Collins http://www.collinsdictionary.com/   2、Merriam-Webster   http://www.wordcentral.com/ http://www.merriam-webster.com/   3、Oxford
1、edx https://www.edx.org/   2、sliderule https://www.mysliderule.com/   3、openlearn http://www.open.edu/openlearn/
当我们在Collins词典中输入“voilent”的时候,会有如下提示: 当我们在Google中搜索“voilent”的时候,也会有如下提示: Collins和Google是如何做到的呢?它是怎么知道我们把i和o的位置弄反了呢? 当我们输入一个词,而这个 ...
本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词 本文使用的英语单词囊括了几乎所有的考纲词汇共18123词: /** * 考纲词汇 * @return */ public static Set<Word> getSyllabusVocabulary(){ return get("/word_pr ...
实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测 运行结果: 检查的博文数:128 1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 Jaccard=0.859838 JaroDistance=0.824469 JaroWinklerDistance=0.894682 SørensenDiceCoefficient=0.92463 ...
1、ACL Anthology A Digital Archive of Research Papers in Computational Linguistics and Natural Language Processing 旧版:http://aclweb.org/anthology/ 新版:http://aclanthology.info/   2、ACL Anthology Network http://clair.eecs.umich.edu/aan/index.php   3、ACL Wiki
Java8内置了强大的多核支持,我们在处理数据的时候,如果不充分利用多核,都好不意思跟老板打招呼。 我们经常会使用AtomicInteger来做计数器,如下所示: List<String> words = Files.readAllLines(Paths.get("src/main/resources/dic.txt&qu ...
我们如何通过计算词的语境来获得相关词呢?   语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成。 相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关。   算法 ...
word分词中的 org.apdplat.word.WordFrequencyStatistics​ 类提供了词频统计的功能 命令行脚本的调用方法如下: 将需要统计词频的文本写入文件:text.txt chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt 程序运行结束后打开文件statistics-result.txt查看词频统计结果   在程序中的调用方法如下: //词频统计设置 WordFrequencyStatistics wordFreque ...
Global site tag (gtag.js) - Google Analytics