word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能
命令行脚本的调用方法如下:
将需要统计词频的文本写入文件:text.txt chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt 程序运行结束后打开文件statistics-result.txt查看词频统计结果
在程序中的调用方法如下:
//词频统计设置 WordFrequencyStatistics wordFrequencyStatistics = new WordFrequencyStatistics(); wordFrequencyStatistics.setRemoveStopWord(false); wordFrequencyStatistics.setResultPath("word-frequency-statistics.txt"); wordFrequencyStatistics.setSegmentationAlgorithm(SegmentationAlgorithm.MaxNgramScore); //开始分词 wordFrequencyStatistics.seg("明天下雨,结合成分子,明天有关于分子和原子的课程,下雨了也要去听课"); //输出词频统计结果 wordFrequencyStatistics.dump(); //准备文件 Files.write(Paths.get("text-to-seg.txt"), Arrays.asList("word分词是一个Java实现的分布式中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。")); //清除之前的统计结果 wordFrequencyStatistics.reset(); //对文件进行分词 wordFrequencyStatistics.seg(new File("text-to-seg.txt"), new File("text-seg-result.txt")); //输出词频统计结果 wordFrequencyStatistics.dump("file-seg-statistics-result.txt");
第一句话的词频统计结果:
1、下雨 2 2、明天 2 3、分子 2 4、课程 1 5、听课 1 6、结合 1 7、原子 1 8、去 1 9、成 1 10、关于 1 11、和 1 12、也要 1 13、有 1 14、的 1 15、了 1
第二句话的词频统计结果:
1、分词 2 2、的 2 3、基于 1 4、word 1 5、组件 1 6、词典 1 7、ngram 1 8、多种 1 9、实现 1 10、并 1 11、利用 1 12、消除歧义 1 13、中文分词 1 14、算法 1 15、是 1 16、分布式 1 17、了 1 18、提供 1 19、模型 1 20、来 1 21、一个 1 22、Java 1
相关推荐
主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用亲测可用, 谢谢支持。
3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 适用工作项目、毕业设计,课程设计,项目源码均经过助教老师测试,运行无误,轻松复刻,欢迎下载 -------- 下载后...
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过...
词频统计 文本相似度(10种算法) 判定句子是有意义的人话的可能性 支持应用统计语言模型(即隐含马尔可夫)(二元模型、三元模型) 部分文件功能 word分词器的API可打开 word-1.3 API.html查看 运行demo-word查看分词效果...
对样本集三个情感标签下的词组分别进行词频统计 文本向量化 分别对样本集和测试集中的词组计算tf-idf值 为了方便后续处理,将tf-idf值*10000进行扩大 根据一个词和对应的tf-idf值将文本转化成向量数组 特征选择 根据...
使用python对51job的招聘信息进行爬虫,使用python对职位信息输出词云,词频统计图,使用jieba库进行分词,然后使用gensim的word2vec进行词向量训练,然后使用sklearn的k-means算法进行聚类。压缩包内有代码,数据,...
TF-IDF和TextRank均属于此类方法,其中TF-IDF方法通过计算单文本词频(Term Frequency, TF)和逆文本频率指数(Inverse Document Frequency, IDF)得到词语权重;TextRank方法基于PageRank的思想,通过词语共现...
利用统计模型或机器学习模型等对数据集进行分类. 2.1预处理 分词器选择了jieba接触, jieba分词使用了基于前缀词典实现高效的词图扫描, 生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划...
从一片文档中提取出所有的单词(word),然后计算每个单词出现的频率(次数),按照一定的次序将排序好的单词以“word(频率)”的形式打印出来。 可以按照频率高低,或者单词顺序打印所有出现的单词。
词相似度计算词林编码法相似度汉语语义法相似度知网词相似度字面编辑距离法初步相似度计算简单而言相似度句子相似度计算词性和词序结合法编辑距离算法Gregor编辑距离法优化编辑距离法文本相似度计算余弦相似度编辑...
SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上...首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率