jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。
jsearch的索引文件结构定义如下:
1、一个词的索引由=分割的三部分组成:
第一部分是词
第二部分是这个词在多少个文档中出现过(上限1000)
第三部分是倒排表
2、倒排表由多个倒排表项目组成,倒排表项目之间使用|分割
3、倒排表项目的组成又分为三部分,用_分割:
第一部分是文档ID
第二部分是词频
第三部分是词的位置
4、词的位置用:分割
例如:
shingles=31=47466_1_2|1_1_6|1_1_1|2_1_5|67_1_1|903_1_3|17_1_5|1_3_4:6:11
表示词 shingles 的索引:
词:shingles
有 31 个文档包含 shingles 这个词
包含这个词的第一篇文档的ID是47466,
shingles 的词频是1,出现 shingles 的位置是2
文档内容为:
A better solution is to use shingles, which are compound tokens created
from multiple adjacent tokens.
对文档内容进行分词并移除停用词之后的结果为:
[solution, shingles, compound, tokens, created, multiple, adjacent, tokens]
包含这个词的第二篇文档的ID是47466+1=47467,
shingles 的词频是1,出现 shingles 的位置是6
文档内容为:
Lucene has a sandbox module that simplifies adding shingles to your index,
described in section 8.3.2
对文档内容进行分词并移除停用词之后的结果为:
[lucene, sandbox, module, simplifies, adding, shingles, index, section]
包含这个词的第八篇文档的ID是47466+1+1+2+67+903+17+1=48458,
shingles 的词频是3,出现 shingles 的位置分别是4、6、11
文档内容为:
For example the sentence “please divide this sentence into shingles”
might be tokenized into the shingles “please divide”, “divide this”,
“this sentence”, “sentence into” and “into shingles”
对文档内容进行分词并移除停用词之后的结果为:
[sentence, divide, sentence, shingles, tokenized, shingles, divide, divide, sentence, sentence, shingles]
这里需要注意的是位置不是和原文一一对应的,而是和去除停用词后的位置一一对应的
停用词的定义看这里的链接,分词使用word分词提供的针对纯英文文本的分词器
相关推荐
jSearch(聚搜) 是一款专注内容的chrome搜索扩展,一次搜索聚合多平台内容
jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。 标签:jsearch
JSearch项目希望为互联网提供基于Java的通用搜索引擎接口。 它由一个核心界面,搜索引擎适配器,一个排序/合并模块和一个基于JSP的GUI组成。
轻量级基于Javascript客户端的搜索... 程序(.NET)生成Javascript搜索索引,并为您提供代码以在您的网站中轻松实现它。 教程视频:http://www.youtube.com/watch?v=yj7_JKQ49YM我的投资组合中的演示:www.bert.co.nr
JSearch是一个Java库,其中包含用于在图形的两个顶点之间查找路径的算法。 它提供了经典的搜索算法(深度优先,广度优先,A *等),可以在实现SearchProblemInterface任何问题上运行。 是应用程序的一个示例。 状态...
Application provide indexing and searching capability using Inverted File & TVSM methods.
jSearch(聚搜)是一种专注内容的chrome搜索扩展,一次搜索聚合多平台内容; 支持google,百度,Bing(国际版)三大搜索引擎 支持自定义搜索站点 支持微信公众号&公众号文章搜索 收藏夹搜索,历史记录搜索 支持...
- Servlets 开发 - JTrain(训练计划的管理,添加) - JTrainingTask(添加异步 Servlet 的队列) - JTrainer(带有消息的主页) - JSearch(域的显示,搜索) - JFixtures(数据库的初始化) -> TO BE启动 ...