Nutch + solr 这个配合不错哦

因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下。

用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI。

首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现。

然后在这两个地方要注意

一是记得改Nutch过滤策略。

Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则

+^http://([a-z0-9]*\.)*com/

当然到你的系统要发布的时候,你可以根据你的需要改这些正则,匹配不同采集策略。
二是schema.xml要同步的。

Nutch和solr下应该一样的,我是用Nutch的覆盖solr的

三是几个错误要修改好,网上基本能查到。

主要就是改下scheme.xml里的几个参数,比如把<str name="df">text</str>值改为context呀,

再有就是把没有分词包加到solr的sample的库目录呀,或是直接注释掉什么的,

方法很多,大家放狗搜搜,自己再读读源码,应该很轻松搞定。

最后就是在系统中集成的方法了,我用了solrnet,做的客户端,很轻松,查询只要3天就可以写出来,当然要做好web或是服务的话,应该也不麻烦。

在上客户端的时候,我用的是xml形式的查询,已经有现成的封装,大家可以自己试试。

时间: 2024-10-20 02:04:05

Nutch + solr 这个配合不错哦的相关文章

基于Nutch&amp;Solr定向采集解析和索引搜索的整合技术指南文档

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档 内容来源于开源项目: http://git.oschina.net/xautlx/nutch-ajax https://github.com/xautlx/nutch-ajax 如何阅读本文档 本教程文档原始基于Markdown编写,如果你熟悉Markdown文件及相关工具使用,可以直接通过Markdown阅读或编辑工具查看本教程.md格式文件. 由于Markdown语法暂时没有目录支持,如果希望以目录导航方式查看文档,可参考如下

[Nutch]Solr命令的使用

solrindex 建立索引并提交到Solr服务器. 参数: 参数说明: solr url:solr的访问url,如:http://192.168.238.128:8983/solr: crawldb:crawldb的路径: linkdb:linkdb路径: dir:segments的路径. 执行命令: bin/nutch solrindex http://192.168.238.128:8983/solr data/crawldb -linkdb data/linkdb -dir data/s

Nutch &amp; Solr &amp; IKAnalyzer 问题记录

[集锦]Nutch配置错误 IO错误   记得出错的时候把出错的目录删除,否则下次还是出错. Command crawl is deprecated, please use bin/crawl instead 1.8和2.3版本不可以使用这个命令,所以才会有之前的错误. 使用以下代替: 1 Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds> 2 Example: bin/crawl

[Nutch]Solr配置自定义的中文分词器mmseg4j

上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器. 1. 下载mmseg4j 点击mmseg4j-1.8.5 .zip,进入下载页面. 2. 解压mmseg4j-1.8.5.zip 将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解压到mmseg4j-1.8.5目录: unzip mmseg4j-1.8.5\ .zip

solr ,hadoop ,lucene,nutch 的关系和区别

apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来nutch独立成为独立项目.nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下.nutch主要完成抓取,提取内容等工作. solr则是基于lucene的搜索界面.提供XML/HTTP 和 JSON/Python/Ruby API,提供搜

基于Solr的HBase多条件查询测试

转自:http://www.cnblogs.com/chenz/articles/3229997.html 背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力.针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证. 原理: 基于Solr的HBase多条件查询原理很简单,将HBas

基于Solr的HBase多条件查询

基于Solr的HBase多条件查询——转载: 背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询.HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快速检索,对于多字段的组合查询却无能为力. 针对HBase的多条件查询也有多种方案,但是这些方案要么太复杂,要么效率太低,本文只对基于Solr的HBase多条件查询方案进行测试和验证. 原理: 基于Solr的HBase多条件查询原理很简单,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,

Solr实现SQL的查询与统计--转载

原文地址:http://shiyanjun.cn/archives/78.html Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala,只要熟悉SQL,就可以熟练地使用Impala来执行查询与分析的功能.不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的.下面,我们设计一个表,通过该表中的数据,来将SQL查询与统计的语句,使用Solr查询的方式来与SQL查询对应.这个翻译的过程,是非常有趣的,你可以看到Solr一些很不错的功能.用来示例的表结构设计,

经典的机器学习方面源代码库

编程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是Python(numpy+scipy+matplotlib)和C/C++,这样组合既可搞研究,也可搞商业开发,易用性不比matlab差,功能组合更为强大,个人认为,当然R和Java也不错. 1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件) http://mloss.org 2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了) http://www.dmo