1、从content域中搜索
从solr的example中得到的solrConfig.xml中,qf的定义如下:
[html] view
plaincopy
- <str name="qf">
- text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
- title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0
- </str>
由于content不占任何的权重,因此如果某个文档只在content中包含关键字的话,搜索结果并不会返回这个文档。因此,对于nutch提取的索引来说,要增加content的权重,以及url的权重(如果需要的话):
[html] view
plaincopy
- <str name="qf">
- content^1.0 text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
- title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0
- </str>
2、保存网页的content内容
将schema.xml中的
<field name="content" type="text" stored="false" indexed="true"/>
改为
<field name="content" type="text" stored="true" indexed="true"/>
3、同时显示网页文件与一般文本
velocity/results_list.vm
##parse("hit_plain.vm")
将注释去掉。
4、调整每个搜索返回项的显示内容
vi richtest_doc.vm
<div> Id: #field('id') </div>
改成:
<div> time: #field('tstamp') </div> <div> score: #field('score') </div>
这个方法可以修改其它字段,详见http://blog.csdn.net/jediael_lu/article/details/38039267
集成Nutch/Hbase/Solr构建搜索引擎之三:内容修改,布布扣,bubuko.com
时间: 2024-10-29 03:44:53