[Nutch]Solr命令的使用

solrindex

建立索引并提交到Solr服务器。

参数:

参数说明:

执行命令:

bin/nutch solrindex http://192.168.238.128:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments

执行结果:

建立的索引文件存放在Solr目录下面的data目录下的index目录了里面:

通过LUKE工具查看内容如下:

时间: 2024-10-29 19:11:46

[Nutch]Solr命令的使用的相关文章

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档 内容来源于开源项目: http://git.oschina.net/xautlx/nutch-ajax https://github.com/xautlx/nutch-ajax 如何阅读本文档 本教程文档原始基于Markdown编写,如果你熟悉Markdown文件及相关工具使用,可以直接通过Markdown阅读或编辑工具查看本教程.md格式文件. 由于Markdown语法暂时没有目录支持,如果希望以目录导航方式查看文档,可参考如下

Nutch & Solr & IKAnalyzer 问题记录

[集锦]Nutch配置错误 IO错误   记得出错的时候把出错的目录删除,否则下次还是出错. Command crawl is deprecated, please use bin/crawl instead 1.8和2.3版本不可以使用这个命令,所以才会有之前的错误. 使用以下代替: 1 Usage: bin/crawl <seedDir> <crawlID> <solrURL> <numberOfRounds> 2 Example: bin/crawl

[Nutch]Solr配置自定义的中文分词器mmseg4j

上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器. 1. 下载mmseg4j 点击mmseg4j-1.8.5 .zip,进入下载页面. 2. 解压mmseg4j-1.8.5.zip 将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解压到mmseg4j-1.8.5目录: unzip mmseg4j-1.8.5\ .zip

Nutch + solr 这个配合不错哦

因为朋友需要,所以把这个开源组合放在一起试用了下,正在弄,先Mark下. 用的是Nutch1.9,这个比较新,资料比较少,基本上就是用原来的英文WIKI. 首先要注意的是,不要试着在windows下做,除非你是环境十分有必要,或者是一点也不会linux,因为在windows下,确实需要改大量的代码,并且会有不可预料的问题出现. 然后在这两个地方要注意 一是记得改Nutch过滤策略. Nutch上的conf/regax-urlfilter.xml中一定要把没用的#掉,然后加上这个正则 +^http

[Nutch]Nutch重要命令使用说明

之前几篇博文对nucth抓取周期的几个命令做了说明,本篇博文将对nutch抓取周期以外的几个重要的命令的使用进行详细的说明. 1. mergesegs 合并多个segment为一个segment. 参数: 参数说明: output_dir: 输出目录 dir:合并路径 命令: bin/nutch mergesegs data2/segments_all -dir data2/segments/ 合并结果: 从结果可以看出,是把三个segments合并为了一个segment. 先来看下之前3个se

solr ,hadoop ,lucene,nutch 的关系和区别

apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来nutch独立成为独立项目.nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下.nutch主要完成抓取,提取内容等工作. solr则是基于lucene的搜索界面.提供XML/HTTP 和 JSON/Python/Ruby API,提供搜

solr特点六: DIH (从数据源导入数据)

在这个结构化数据和非结构化数据的数量都很庞大的年代,经常需要从数据库.XML/HTML 文件或其他数据源导入数据,并使数据可搜索.过去,要编写自定义代码才能创建到数据库.文件系统或 RSS 提要的自定义连接.但现在,Solr 的 DataImportHandler(DIH)填补了这个空白,它使您能够从数据库(通过 JDBC).RSS 提要.Web 页面和文件中导入数据.DIH 位于 apache-1.3.0/contrib/dataimporthandler 中,是 apache-1.3.0/d

开源爬虫Labin,Nutch,Neritrix介绍和对比

开源爬虫Labin,Nutch,Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料,整理在下面: Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络) 简介 Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien A

Apache solr(一)

概念:Apache Solr 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache Solr 中存储的资源是以 Document 为对象进行存储的.每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性.Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件中使用:<uniqueKey>id</uniqueKey>