`
文章列表
search托管于github   如何利用Java来调用谷歌搜索,更多细节请到github上查看search   自己没搜索引擎,又想要大规模的数据源,怎么办?可以对谷歌搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助谷歌搜索来实现,比如网站的新闻采集,比如技术、品牌的新闻跟踪,比如知识库的收集,比如人机问答系统等,我之前做的一个准确率达百分之九十几的人机问答系统的数据源,其中一部分就是充分利用了谷歌搜索。  package org.apdplat.search; import java.io.IOException; import java.i ...
search托管于github   如何利用Java来调用百度搜索,更多细节请到github上查看search   自己没搜索引擎,又想要大规模的数据源,怎么办?可以对百度搜索善加利用,以小搏大,站在巨人的肩膀上。有很多的应用场景可以很巧妙地借助百度搜索来实现,比如网站的新闻采集,比如技术、品牌的新闻跟踪,比如知识库的收集,比如人机问答系统等,我之前做的一个准确率达百分之九十几的人机问答系统的数据源,其中一部分就是充分利用了百度搜索。我们可以很容易地扩展到其他的搜索引擎,使用JSoup+CSSPath技术,轻松获取页面的自定义的内容。   package org.apdplat. ...
1、定位问题。因为我所有的开源项目都有详细的SLF4J日志输出,当然很多其他开源项目也一样,所有的异常以及自己记录的日志都会统一输出,这为定位问题提供了可能。开发中养成记录详细日志的习惯对于定位问题有非常大的帮助,如果日志不详细或者出现把异常吞掉的情况,那么定位问题就会变得非常困难,APDPlat旗下的10大开源项目都有非常详细的日志。 2、查找原因。如果是自己的代码的问题,一般很快就能搞定了。如果是其他开源项目的问题则继续3。 3、google和stackoverflow搜索异常及提示信息。因为搜索有限制长度,所以调整长度,去除个性化信息如自己的账号名称自己的路径等,一般常见的问题一搜 ...
wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz tar -xzvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 cp conf/zoo_sample.cfg conf/zoo.cfg vi conf/zoo.cfg  修改:dataDir=/home/ysc/zookeeper  添加:       server.1=host001:2888:3888 maxClientCnxns=100 mkdir /home/ysc ...
1、  安装虚拟机和操作系统 VMware-workstation-full-10.0.0  或 VirtualBox-4.2.18-88781-Win  下载VMware  下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2、  设置root用户密码 sudo passwd root 3、  上传文件 利用
borm – 大数据的对象持久化   wget  http://archive.apache.org/dist/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1、创建项目 mvn archetype:create -DgroupId=org.apdplat.demo.gora -DartifactId=gora-demo 2
  wget http://mirrors.cnnic.cn/apache/incubator/spark/spark-0.8.0-incubating/spark-0.8.0-incubating-bin-hadoop1.tgz tar -zxvf spark-0.8.0-incubating-bin-hadoop1.tgz mv spark-0.8.0-incubating-bin-hadoop1 spark-0.8.0 wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz tar -zxvf scala-2.9. ...
wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加: export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HOME/bin source /etc/profile cp conf/log4j.properties.template conf/log4j.properties pig --help LocalMode: ...
wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz tar -xzvf hive-0.11.0-bin.tar.gz cd hive-0.11.0-bin sudo vi /etc/profile 增加: export HIVE_HOME=/home/ysc/hive-0.10.0-bin export PATH=$PATH:$HIVE_HOME/bin        source /etc/profile
wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gz tar -xzvf mahout-distribution-0.8.tar.gz cd mahout-distribution-0.8 sudo vi /etc/profile 增加:     export PATH=$PATH:/home/ysc/mahout-distribution-0.8/bin source /etc/profile 数据:hadoop fs -put clustering_material. ...
Sqoop1: wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz tar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz mv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4 cd sqoop-1.4.4 sudo vi /etc/profile 增加: export HADOOP_COMMON_HOME=/home/ysc/hadoop-1.2.1
wget http://download.zeromq.org/zeromq-2.1.7.tar.gz tar -xzvf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 sudo apt-get install gcc sudo apt-get install g++ sudo apt-get install libuuid-dev ./configure sudo apt-get install make make sudo make install  
1、在eclipse中配置hadoop插件        将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下,重启eclipse。 2、打开MapReduce视图        Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象。 3、添加一个MapReduce环境       在eclipse下端,控制台旁边会多一个Tab,叫“Map/ReduceLocations”,在下面空白的地方点右键,选择“NewHadoop location...”,在弹出 ...
      vi mapper.py       输入:              #!/usr/bin/env python                importsys                for linein sys.stdin:                            line= line.strip()                            words= line.split()
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人   下面是Nutch的发展历程:   2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University
Global site tag (gtag.js) - Google Analytics