- 浏览: 2451174 次
- 性别:
- 来自: 北京
最新评论
-
masuweng:
你好, 根据机器码计算注册码的代码是在哪个包下的哪个类了.
APDPlat中的机器码生成机制 -
masuweng:
我的那个项目跑起来为什么503了
APDPlat中的机器码生成机制 -
masuweng:
APDPlat中的机器码生成机制 -
liutaochn:
可以用,thanks
Cygwin运行nutch报错:Failed to set permissions of path -
qbuer:
The Google Web Search API is no ...
使用Java调用谷歌搜索
文章列表
在我多年的开发经验中,经常发现的一个情况就是,很多项目的对象字段或者是数据库字段本来是数字类型的,却被定义成字符串类型,这无关痛痒吗?
对于小项目来说,可能没什么影响,反正只要业务逻辑正确即可,性 ...
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反义标注、拼音标注等功能。提供了10种分词算法,还提供了10种文本相似度算法,同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。
word1.3新增了大量功能,如:词频统 ...
昨晚和朋友聊天,喝了点咖啡,由于我经常喝茶,很长时间没喝咖啡了,所以失眠了,于是起床读JVM规范,读完后在朋友圈发了一条信息:
JVM Run-Time Data Areas:The Java Virtual Machine defines various run-time data areas that are used during exec ...
实现代码如下:
import java.util.LinkedHashMap;
import java.util.Map;
/**
* LRU (Least Recently Used) 算法的Java实现
* @param <K>
* @param <V>
* @author 杨尚川
*/
public class LRUCache<K, V> extends LinkedHashMap<K, V> {
//缓存大小
private int cacheSize;
public L ...
superword
BBC:http://www.bbc.co.uk/learningenglish/ BBC课程下载(百度网盘) BBC ON YOUTUBE
VOA:http://learningenglish.voanews.com/ VOA ON YOUTUBE
11个老师,几百个小时覆盖初中高级的免费英语学习视频:http://www.engvid.com/english-lessons/
When two words are confused for one another the results can sometimes be comical, for example when affluent is confused with effluent or desert with dessert.
On other occasions mix-ups between commonly confused words can result in a situation that isn't so funny, for example when two words with alm ...
1、Collins
http://www.collinsdictionary.com/
2、Merriam-Webster
http://www.wordcentral.com/
http://www.merriam-webster.com/
3、Oxford
1、edx
https://www.edx.org/
2、sliderule
https://www.mysliderule.com/
3、openlearn
http://www.open.edu/openlearn/
当我们在Collins词典中输入“voilent”的时候,会有如下提示:
当我们在Google中搜索“voilent”的时候,也会有如下提示:
Collins和Google是如何做到的呢?它是怎么知道我们把i和o的位置弄反了呢?
当我们输入一个词,而这个 ...
本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词
本文使用的英语单词囊括了几乎所有的考纲词汇共18123词:
/**
* 考纲词汇
* @return
*/
public static Set<Word> getSyllabusVocabulary(){
return get("/word_pr ...
实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测
运行结果:
检查的博文数:128
1、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.001209 Jaccard=0.859838 JaroDistance=0.824469 JaroWinklerDistance=0.894682 SørensenDiceCoefficient=0.92463 ...
1、ACL Anthology
A Digital Archive of Research Papers in Computational Linguistics and Natural Language Processing
旧版:http://aclweb.org/anthology/
新版:http://aclanthology.info/
2、ACL Anthology Network
http://clair.eecs.umich.edu/aan/index.php
3、ACL Wiki
Java8内置了强大的多核支持,我们在处理数据的时候,如果不充分利用多核,都好不意思跟老板打招呼。
我们经常会使用AtomicInteger来做计数器,如下所示:
List<String> words = Files.readAllLines(Paths.get("src/main/resources/dic.txt&qu ...
我们如何通过计算词的语境来获得相关词呢?
语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成。
相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关。
算法 ...
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能
命令行脚本的调用方法如下:
将需要统计词频的文本写入文件:text.txt
chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt
程序运行结束后打开文件statistics-result.txt查看词频统计结果
在程序中的调用方法如下:
//词频统计设置
WordFrequencyStatistics wordFreque ...