nutch+hadoop+solr个人觉得最佳配置

搜索引擎12年前 (2014)发布 admin
378 0

首先
nutch1.8直接可以运行在hadoop2.2.0上,不用为版本兼容做任何修改(nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0)
http://www.thinksaas.cn/group/topic/233539/

他们的最新版本
nutch2.2.1
http://nutch.apache.org/downloads.html
hadoop2.5.1
http://mirrors.hust.edu.cn/apache/hadoop/common/
solr4.9.1
http://archive.apache.org/dist/lucene/solr/

网络上部分案例
Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html
Nutch1.8+Hadoop1.2+Solr4.3分布式集群配置
http://www.tuicool.com/articles/MFBnIj
Solr4.4 + hadoop2.0 + nutch1.8 (与理想目标比较吻合)
http://blog.csdn.net/qzlzwhx/article/details/38532679
nutch 1.8与solr 4.8环境搭建
http://blog.csdn.net/undergrowth/article/details/24974691
Mac上搭建nutch-1.8+solr-4.8.1
http://www.hlyu.cn/?p=143

爬取效率优化
Nutch的Hadoop方式爬取效率优化
http://my.oschina.net/junfrank/blog/290404

材料
序号 名称 职责描述
1 Nutch1.8 主要负责爬取数据,支持分布式
2 Hadoop2.2.0 使用MapReduce进行并行爬取,使用HDFS存储数据,Nutch的任务提交在Hadoop集群上,支持分布式
3 Solr4.9.1 主要负责检索,对爬完后的数据进行搜索,查询,海量数据支持分布式
4 待选 主要负责,对网页内容与标题进行分词,便于全文检索(IKAnalyzer或paoding)
5 Centos6.5 Linux系统,在上面运行nutch,hadoop等应用
6 Tomcat7.0 应用服务器,给Solr提供容器运行
7 JDK1.7 提供JAVA运行环境
8 Ant1.9 提供Nutch等源码编译
9 屌丝一名 主角
安装顺序
1 centos
2 jdk
3 ant
4 tomcat
5 mysql(可选)
6 nutch
7 hadoop(可选)
8 solr

© 版权声明

相关文章