nutch,solr集成在hadoop上

nutch是一个应用程序,在我的这个项目里主要是做爬虫用,爬取后的内容寄存在hdfs上,所以在hdfs结合模块现已结合上去了。

solr:

在eclipse新建动态页面项目,删去WebContent的一切内容。

 在solr/dist下(或许/solr3.6.2/example/webapps下)解压solr.war  将一切内容拷贝到WenContent里。

修正WEB-INF里的web.xml

增加

solr/home/home/hadoop/solr3.6.2/example/solrtype>java.lang.Stringtype>

到最后的前。

解说下这个当地是你的solr core的方位

采用solr多核的话能够将

/home/hadoop/solr3.6.2/example/multicore,一起修正multicore中的solr.xml

instanceDir为core的寄存方位

在server中新建tomcat7服务,然后增加你刚新建的动态页面工程:

创建indexwrite,开始抓取资源:

indexwrite.sprite("http://www.metabase.cn/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.jinanwuliangye.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.tongxinglong.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.qclchina.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.vipfuxin.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.minnan888.net/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.lcsyt.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://lf.yunnanw.cn/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.yzbljp.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.hyyfscl.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.shoudashou.com/","utf-8");//资源地址,utf-8

indexwrite.sprite("http://www.shuoma.com.cn/","utf-8");//资源地址,utf-8

InputStrame.close;

nutch,solr集成在hadoop上

时间: 2024-08-06 11:58:40

nutch,solr集成在hadoop上的相关文章

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档 内容来源于开源项目: http://git.oschina.net/xautlx/nutch-ajax https://github.com/xautlx/nutch-ajax 如何阅读本文档 本教程文档原始基于Markdown编写,如果你熟悉Markdown文件及相关工具使用,可以直接通过Markdown阅读或编辑工具查看本教程.md格式文件. 由于Markdown语法暂时没有目录支持,如果希望以目录导航方式查看文档,可参考如下

玩转大数据系列之Apache Pig如何与Apache Solr集成(二)

散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷贝至本地磁盘,才能提供检索服务,这样以来,比较繁琐,而且有以下几个缺点: (一)在生成索引以及最终能提供正常的服务之前,索引经过多次落地操作,这无疑会给磁盘和网络IO,带来巨大影响 (二)Lucene的Field的配置与其UDF函数的代码耦合性过强,而且提供的配置也比较简单,不太容易满足,灵活多变的

详细solr集成搭建

在Linux上安装部署solr 之前的文章有在Linux上安装部署solr 可以直接戳这个地址 --------------------->https://www.cnblogs.com/hank-hush/p/12097644.html 我们分别将部署好的solr和tomcat复制成四份来测试 1.1首先我们来创建第一份 分别复制solrhome和tomcat (先配置第一份 之后直接复制第一份) [[email protected] solr]# cp -r solrhome solrhom

在Hadoop上运行基于RMM中文分词算法的MapReduce程序

原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词算法的MapReduce程序 23条回复 我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学

让python在hadoop上跑起来

duang~好久没有更新博客啦,原因很简单,实习啦-好吧,我过来这边上班表示觉得自己简直弱爆了.第一周,配置环境:第二周,将数据可视化,包括学习了excel2013的一些高大上的技能,例如数据透视表和mappower绘制3d地图,当然本来打算是在tkinter里面运用matplotlib制作一个交互式的图表界面,然而,画出来的图简直不是excel2013能比的,由于对界面和matplotlib研究的也不是很深,短时间是没法研究出来,上周真是多灾多难:现在,第三周,开始接触hadoop,虽说大多数

MapReduce编程模型及其在Hadoop上的实现

转自:https://www.zybuluo.com/frank-shaw/note/206604 MapReduce基本过程 关于MapReduce中数据流的传输过程,下图是一个经典演示:  关于上图,可以做出以下逐步分析: 输入数据(待处理)首先会被切割分片,每一个分片都会复制多份到HDFS中.上图默认的是分片已经存在于HDFS中. Hadoop会在存储有输入数据分片(HDFS中的数据)的节点上运行map任务,可以获得最佳性能(数据TaskTracker优化,节省带宽). 在运行完map任务

同事总结的hivesql优化Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的M

同事总结的hive sql 优化 Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具. 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维. 基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select ... from A join B on A.key = B.key where A.userid>10 and B

在hadoop上运行java文件

hadoop 2.x版本 编译:javac -d . -classpath /usr/lib/hadoop/hadoop-common-2.2.0.2.0.6.0-102.jar TestGetPathMark.java 在com的同级目录上建立manifest.mf 在里面写上Main-Class: com.test.path.mark.TestGetPathMark d打包:然后保存并执行jar -cvfm test.jar manifest.mf com/ 然后执行hadoop jar t

【大数据系列】hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes

使用hadoop上传文件 hdfs dfs -put  XXX 17/12/08 17:00:39 WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /user/sanglp/hadoop-2.7.4.tar.gz._COPYING_ could only be replicated to 0 nodes instead of m