ElasticSearch的Schema free特性给动态提取并索引网页结构化文本内容提供了支持,使用URL的hash值来作为索引的主键(实际开发中使用URL作为主键,这里使用URL的hash值是为了方便演示),当网页内容改变后,可以非常方便地更新索引。
下面演示了动态索引结构和索引更新机制:
- 1、提交索引:
curl -XPUT http://localhost:9200/webpage/finance/85723925 -d '
{
"url" : "http://money.163.com/14/0523/02/9ST8D7KR00253B0H.html",
"title" : "中国非一线城市限购可退出 楼市限购或全面松绑",
"content" : "昨日有消息称,除北上广深之外,其他城市的限购政策可以自行调节,尤其是库存过大的地方。这意味着除四大一线城市之外的30多个限购城市,有可能全面松绑限购政策。"
}
'
2、服务器响应:
{"_index":"webpage","_type":"finance","_id":"85723925","_version":1,"created":true}
- 3、查看索引结构:
需要elasticsearch-head插件,下面是安装方法:
plugin -install mobz/elasticsearch-head
浏览器访问:
http://localhost:9200/_plugin/head/
- 4、再次提交同样URL的索引,内容改变了:
curl -XPUT http://localhost:9200/webpage/finance/85723925 -d '
{
"url" : "http://money.163.com/14/0523/02/9ST8D7KR00253B0H.html",
"title" : "标题改了:中国非一线城市限购可退出 楼市限购或全面松绑",
"content" : "内容改了:昨日有消息称,除北上广深之外,其他城市的限购政策可以自行调节,尤其是库存过大的地方。这意味着除四大一线城市之外的30多个限购城市,有可能全面松绑限购政策。"
}
'
5、服务器响应:
{"_index":"webpage","_type":"finance","_id":"85723925","_version":2,"created":false}
可以看到,版本变为2,created为false,已经成功更新索引
- 6、再次提交同样URL的索引,不但内容改变了,而且新增了2个字段:
curl -XPUT http://localhost:9200/webpage/finance/85723925 -d '
{
"url" : "http://money.163.com/14/0523/02/9ST8D7KR00253B0H.html",
"title" : "标题改了:中国非一线城市限购可退出 楼市限购或全面松绑",
"content" : "内容改了:昨日有消息称,除北上广深之外,其他城市的限购政策可以自行调节,尤其是库存过大的地方。这意味着除四大一线城市之外的30多个限购城市,有可能全面松绑限购政策。",
"keywords" : "试探,限购政策,淡出,一次次",
"description" : "中国非一线城市限购可退出 楼市限购或全面松绑,试探 限购政策 淡出 一次次"
}
'
7、服务器响应:
{"_index":"webpage","_type":"finance","_id":"85723925","_version":3,"created":false}
- 8、再次查看索引结构:
可以看到,新增的两个索引字段已经添加到索引里面了
相关推荐
位图连接索引是数据仓库中一种有效的优化表间连接操作性能的索引机制。在大内存分析处理应用场景下,位图连接索引不仅需要权衡索引的内存和CPU开销,还需要进一步考虑处理器平台所带来的性能收益和数据访问延迟。...
NULL 博文链接:https://xiangtui.iteye.com/blog/1177388
XML索引动态分组的P2P信息检索机制,解决了P2P系统多层次分组不能及时更新以及分组依据片面性的 问题。方案中基于发掘用户兴趣设计了动态分组的IBDG算法,该算法通过实时更新分组提高了搜索效率。仿 真实验结果证明该...
storage文件存储了集合中文档的压缩版本以及用来高亮显示查询结果时需要的term bounding信息,lookup文件用B-tree的结构存储了文档ID和偏移量的映射关系,用来支持随机快速访问的动态索引机制。
第一章 Lucene是个倒排索引 第二章 Lucene与数据库 第三章 Lucene的索引建立及文件结构 第四章 Lucene的检索机制及文档得分 第五章 Lucene的存储优化 第六章 Lucene的效率优化 第七章 用Lucene加快web开发!
索引是一个单独的、物理的数据库结构,是某个表中一列或者若干列的集合以及相应的标识这些值所在的数据页的逻辑指针清单。 索引是依赖于表建立的,提供了数据库中编排表中数据的内部方法。表的存储由两部分组成,一...
本书全面介绍了传统数据库、空间数据库及时空数据库相关的基本概念、应用领域、数据存储机制、数据检索操作及相关的数据索引技术结构,重点分析了空间数据库索引技术的特点、要求及相关实现算法。本书条理清晰、叙述...
针对MapReduce数据块处理机制、高维数据分布特征和KNN查询需求,设计一种基于B 树的高维索引结构(iPartition),创新性提出基于主成分区分度的优化数据划分策略和邻接数据域分散存储等原则,将数据均匀划分到不同的...
该索引结构由系统中自适应选择的相对稳定节点参与构建和维护,索引结构的运行基于这些相对稳定节点的协作进行,因而对系统动态性有较好的适应能力.提出的分布式轻量级资源索引机制可根据节点规模自适应调整,有较好的可...
构成结构和缓存机制 数据和索引文件都存在在.Idb文件里,并且都缓存在内存里。 数据文件都扩展名.MYD(MYData) 索引文件都扩展名.MYI(MYIndex) 只缓存索引文件,不缓存数据文件 select count(*) 需要扫描全表...
倒排索引机制 倒排索引(Inversed index)的特点是不通过文档来寻找关键词,而是通过关键词来定位文档及它在文档中出现的具体位置, 它的工作原理就是通过建立索引和位置表的映射来达到高速查询的效果。 倒排索引的...
对PT方法进行改进使之与iDistance的索引机制相适应,并融合这两种不同的空间划分策略,提出一种适用于高光谱数据的索引结构。该索引是一种度量空间的高维索引,采用两级空间划分,在处理光谱相似性查询时可同时完成...
一种新的前缀立方索引机制,聂晶,冯剑琳,前缀立方在浓缩数据立方的基础上利用前缀共享和基本单元组技术有效地缩小了数据立方的尺寸。由于前缀共享产生的分组结构,浓缩数
当数据庞杂时,B 树索引在查找效率和空间利用率方面还存在不足。针对该问题提出一种改进的B 树结构,首先通过调整叶子节点与非叶子节点的数量关系,以降低树的深度;然后优化原插入算法,在分裂节点前进行平衡处理...
Oracle数据库应用系统的性能优化是一项系统化的工程,涉及到数据库结构的各个方面。本文从B* 树索引入手, 分析了B* 树索引的结构及原理,阐明了如何正确合理地使用B* 树索引及其如何优化数据库系统的性能。
4. 提出一种基于 GPU 缓存敏感 CSB+-树索引的无锁并行处理方案,该方案通过对传统的 CSB+-树的结构改进,可实现 CSB+-树的索引数据在 GPU 上动态更新。在 GPU上提出基于树层和基于节点索引键 CSB+-树两种并行构建...
首先,基于MHT构建了一种新型分层认证数据结构,将数据块的每个副本块组织成副本子树,以此大幅降低多副本更新验证的通信开销。然后,在数据验证中融入了对服务器安全索引信息的认证,以此避免服务器攻击。最后,当...
Lucene是一个基于Java的全文索引工具包。...4. 具体的安装和使用简介:系统结构介绍和演示 5. Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的 扩展 6. 从Lucene我们还可以学到什么
各位组员如果打算研究HubbleDotNet 的内部索引结构和搜索机制,可以从这个版本开始研究了。之前我一直不鼓励大家研究是因为索引结构没有完全成型。大家研究过程中可以多写一些这方面的文章,这样可以让更多人了解和...
针对中心服务器P2P存在瓶颈和单点失效以及无结构P2P易产生网络阻塞的问题,提出一种基于XML索引动态分组的P2P信息检索机制,解决了P2P系统多层次分组不能及时更新以及分组依据片面性的问题。方案中基于发掘用户兴趣...