集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改

1、从content域中搜索

从solr的example中得到的solrConfig.xml中,qf的定义如下:

[html] view
plain
copy

  1. <str name="qf">
  2. text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
  3. title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0
  4. </str>

由于content不占任何的权重,因此如果某个文档只在content中包含关键字的话,搜索结果并不会返回这个文档。因此,对于nutch提取的索引来说,要增加content的权重,以及url的权重(如果需要的话):

[html] view
plain
copy

  1. <str name="qf">
  2. content^1.0 text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
  3. title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0
  4. </str>

2、保存网页的content内容

将schema.xml中的

 <field name="content" type="text" stored="false" indexed="true"/>

改为

        <field name="content" type="text" stored="true" indexed="true"/>

3、同时显示网页文件与一般文本

velocity/results_list.vm

##parse("hit_plain.vm")

将注释去掉。

4、调整每个搜索返回项的显示内容

vi richtest_doc.vm

<div>
  Id: #field('id')
</div>

改成:

<div>
  time: #field('tstamp')
</div>
<div>
  score: #field('score')
</div>

这个方法可以修改其它字段,详见http://blog.csdn.net/jediael_lu/article/details/38039267

集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改,布布扣,bubuko.com

时间: 2024-10-29 03:44:53

集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改的相关文章

集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析

请先参见"集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行",搭建测试环境 http://blog.csdn.net/jediael_lu/article/details/37329731 一.被索引的域 Schema.xml 在使用solr对Nutch抓取到的网页进行索引时,schema.xml被改变成以下内容. 文件中指定了哪些域被索引.存储等内容. <?xml version="1.0" encoding="UTF-8"

集成Nutch/Hbase/Solr构建搜索引擎

1.下载相关软件,并解压 版本号如下: (1)apache-nutch-2.2.1 (2) hbase-0.90.4 (3)solr-4.9.0 并解压至/usr/search 2.Nutch的配置 (1)vi /usr/search/apache-nutch-2.2.1/conf/nutch-site.xml <property> <name>storage.data.store.class</name> <value>org.apache.gora.hb

Nutch 快速入门(Nutch 2.2.1+Hbase+Solr)

http://www.tuicool.com/articles/VfEFjm Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了.Nutch 1.7 则是把数据直接存储在HDFS上. 1. 安装并运行HBase 为了简单起见,使用Standalone模式,参考 HBase Quick start 1.1 下载,解压 wget http://archive.apache.org/di

nutch,solr集成在hadoop上

nutch是一个应用程序,在我的这个项目里主要是做爬虫用,爬取后的内容寄存在hdfs上,所以在hdfs结合模块现已结合上去了. solr: 在eclipse新建动态页面项目,删去WebContent的一切内容. 在solr/dist下(或许/solr3.6.2/example/webapps下)解压solr.war  将一切内容拷贝到WenContent里. 修正WEB-INF里的web.xml 增加 solr/home/home/hadoop/solr3.6.2/example/solrtyp

[Nutch]使用LUKE查看Solr的索引文件内容

上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容. 1. 下载LUKE工具 点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载. 2. 启动LUKE 下载之后在windows系统上面使用命令行启动LUKE: java -jar lukeall-4.0.0-ALPHA

Nutch + Hbase

本文主要讲解内容包括:ant及ivy的搭建.Nutch + Hbase搭建 1.ant及ivy的搭建 1-1)ant下载地址http://ant.apache.org/bindownload.cgi 1-2)环境变量配置,修改linux /etc/profile文件内容,添加如下: export ANT_HOME=/usr/ant export PATH=$ANT_HOME/bin:$PATH 1-3)下载ivy build.xml http://ant.apache.org/ivy/histo

使用Coprocessor实现hbase+solr数据交互

HBase和Solr可以通过协处理器 Coprocessor 的方式向Solr发出请求,Solr对于接收到的数据可以做相关的同步:增.删.改索引的操作.使用solr作为hbase的二级索引,构建基于solr+hbase的快速多条件复杂查询. 查询时,先根据条件在solr中查找符合条件的rowkey,再根据rowkey从hbase中取数据,根据测试,分页查询时基本可以实现ms级的快速查询. 1. 编写SolrIndexCoprocessorObserver代码 package cn.ac.ict.

用持续集成工具Travis进行构建和部署

用持续集成工具Travis进行构建和部署 摘要:本文简单说明了如何使用持续集成工具Travis进行构建和部署的过程. 1. 概述 持续集成(Continuous Integration)是软件开发过程中的重要环节,不论是在开发环境,还是生产环境,其好处都是可以让团队尽快得到反馈,从而尽早发现和解决问题,不要等到用户来报告问题,影响产品和团队的声誉.越早越快地发现和解决问题,成本越低,这也是敏捷开发的基本目的之一. 持续集成的工具有不少,著名的有CruiseControl.JetBrains的Te

HBASE+Solr实现详单查询--转

原文地址:https://mp.weixin.qq.com/s?srcid=0831kfMZgtx1sQbzulgeIETs&scene=23&mid=2663994161&sn=cee222a8534cbc6e28c401706e979dc0&idx=1&__biz=MzA3ODUxMzQxMA%3D%3D&chksm=847c675cb30bee4a5c4e9a03a41662ba6f312d4ba28407311a80c4a36f3f93a4bb624