Tomcat自身带的后台管理程序是需要用户登录的,这样的网站如何用Nutch来爬呢?Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证,对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况,Nutch就无能为力了,就更不用说复杂验证码的认证方式了。
下面用一个简单的例子说明如何配置Nutch,使其能爬需要Http authentication(BASIC, DIGEST)的站点。
1、修改Tomcat配置文件conf/tomcat-users.xml,增加如下配置然后重启,一个用户即可访问所有资源:
<role rolename="admin-script"/> <role rolename="admin-gui"/> <role rolename="manager-script"/> <role rolename="manager-gui"/> <role rolename="manager-jmx"/> <role rolename="manager-status"/> <user password="admin" roles="admin-script,admin-gui,manager-script,manager-gui,manager-jmx,manager-status" username="admin"/>
2、修改Nutch配置文件conf/httpclient-auth.xml,增加如下配置,指定访问特定网站的时候需要出示的用户名和密码:
<credentials username="admin" password="admin"> <authscope host="localhost" port="8080"/> </credentials>
3、启用httpclient插件,在nutch-site.xml中重新指定配置项plugin.includes的值,把protocol-http改为protocol-httpclient:
<property> <name>plugin.includes</name> <value>protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value> </property>
4、准备注入的URL文件:
mkdir urls echo 'http://localhost:8080/' > urls/url
5、修改URL过滤文件conf/regex-urlfilter.txt限制抓取范围:
#-[?*!@=] +^http://localhost:8080/ -.
6、运行爬虫,参数为:
bin/nutch crawl urls -dir data -solr http://localhost:8983/solr/collection1 -depth 30 &
7、查看抓取下来的URL及其状态发现,成功!
相关推荐
介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和...然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用,为用户提供搜索接口。
基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...
关于nutch爬虫一些需要监测的网站,为舆情系统或者监控系统或者全控媒体系统做数据的支撑。
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析
nutch在抓取wap网站时,对于一些网站是要添加相应的头来表明是否是手机访问,如x-up-calling-line-id。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 ...附录一: nutch的相关网站......58 附录二: 参考文献..58
nutch安装指南,nutch教程,nutch网络爬取
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
eclipse配置nutch,eclipse配置nutch
当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值...
nutch平台的详细搭建过程 配置环境 抓取 建立索引 查看结果
nutch使用&Nutch;入门教程 pdf
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch-web-api 它是什么 nutch-web-api是 Apache ... 需要 node.js 才能启动和运行 Web 应用程序。 有关为您的平台安装 node.js 的更多信息,请访问 。 ###Downloading 源和安装依赖项 git clone 安装 初始项目设置
Nutch是一个优秀的开放源...满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较
nutch插件,安装nutch插件,mysql与nutch
nutch1.2测试文档