BugPhobia沟通篇章:Solr模式配置与数据导入调研

0x01 Scrum Meeting特别说明

特别说明,考虑到编译原理课程考核的时间安排,每天开发时间急剧缩短以至于难以维系正常的Scrum Meeting,因此,将2015/12/13 00:00 A.M. ~ 2015/12/14 22:00 P.M.的Scrum Meeting合并,因此,第二次Scrum Meeting的开发时间为两天,此次将首先发布Solr模式配置与数据导入调研方便沟通工作的进一步开展

0x01 :模式配置说明(Schema.xml

0x0100 types段落定义


段落定义


types段落,是一些常见的可重用定义,定义了 Solr(和 Lucene)如何处理 Field。也就是添加到索引中的xml文件属性中的类型,如int、text、date等.


XML格式定义


<fieldType name="string" class="solr.StrField" sortMissingLast="true"/>

<fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"/>

0x0104 fileds段落定义


段落定义


Files段落,是添加到索引文件中出现的属性名称,而声明类型就需要用到上面的types


固定字段说明


<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false"/>

<field name="path" type="text_smartcn" indexed="false" stored="true" multiValued="false" termVector="true" />

<field name="content" type="text_smartcn" indexed="false" stored="true" multiValued="false" termVector="true"/>


动态字段说明

(dynamicField)


动态的字段设置,用于后期自定义字段,*号通配符.例如: test_i就是int类型的动态字段.

<dynamicField name="*_i" type="int" indexed="true" stored="true"/>

<dynamicField name="*_l" type="long" indexed="true" stored="true"/>

<dynamicField name="*_s" type="string" indexed="true" stored="true" />


特殊字段说明

(copyField)


一般用于检索时用的字段这样就只对这一个字段进行索引分词就行了copyField的dest字段如果有多个source一定要设置multiValued=true,否则会报错的

<copyField source="content" dest="pinyin"/>

<copyField source="content" dest="text"/>

<copyField source="pinyin" dest="text"/>

0x02 Solr的数据导入方法


方法概述


使用自带的post.jar工具,需要提前自己定义好需要上传文件的格式

特别说明:最好是以XML或者是json的格式,似乎可以是pdf,以及txt等格式,如上面所述,但是这一部分确实可以上传,但是在后续的搜索的过程中找不到相应的数据,需要进一步的研究,但是XML以及json的格式一定是没有问题了。


具体操作方法

(更多详细的使用细则可翻阅Solr教程P152)


n  Automatically detect the content type based on the file extension.

java -Dauto=yes -jar post.jar a.pdf

n  Automatically detect content types in a folder, and recursively scan it for documents.

java -Dauto=yes -Drecursive=yes -jar post.jar afolder

n  Automatically detect content types in a folder, but limit it to PPT and HTML files.

java -Dauto=yes -Dfiletypes=ppt,html -jar post.jar afolder


方法概述


使用用户界面进行数据的导入

特别说明:Solr本身的用户界面非常友好,可以自行探索并使用


方法概述


我在调研的时候使用的是pysolr,是基于Python的,其实还有solrj是基于java的后者没有调研过,但是前者调研过感觉还不错,增删改查都能做,还不错。

教程网址:https://pypi.python.org/pypi/pysolr/3.2.0

时间: 2024-10-01 09:38:40

BugPhobia沟通篇章:Solr模式配置与数据导入调研的相关文章

Sqoop安装配置及数据导入导出

前置条件 已经成功安装配置Hadoop和Mysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase. 下载sqoop和Mysql的JDBC驱动 sqoop-1.2.0-CDH3B4.tar.gz :http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz mysql-connector-java-5.1.28 安装sqoop [[email protected] ~]$ tar -zxvf sqoop-

MySQL存储引擎 SQL数据导入/导出 操作表记录 查询及匹配条件

MySQL存储引擎的配置 SQL数据导入/导出 操作表记录 查询及匹配条件 1 MySQL存储引擎的配置1.1 问题 本案例要求MySQL数据存储引擎的使用,完成以下任务操作: 可用的存储引擎类型 查看默认存储类型 更改表的存储引擎 1.2 步骤 实现此案例需要按照如下步骤进行. 步骤一:查看存储引擎信息 登入MySQL服务器,查看当前支持哪些存储引擎. 使用mysql命令连接,以root用户登入: [[email protected] ~]# mysql -u root –p Enter pa

利用SOLR搭建企业搜索平台 之——模式配置Schema.xml

来源:http://blog.csdn.net/awj3584/article/details/16963525 schema.xml这个配置文件可以在你下载solr包的安装解压目录的\solr\example\solr\collection1\conf中找到,它就是solr模式关联的文件.打开这个配置文件,你会发现有详细的注释.模式组织主要分为三个重要配置 1. types 部分 是一些常见的可重用定义,定义了 Solr(和 Lucene)如何处理 Field.也就是添加到索引中的xml文件属

solr 4.8+mysql数据库数据导入 + mmseg4j中文全文索引 配置笔记

1.如何将solr部署,请参考之前的文章 2.按上述配置好后,在solr_home文件夹中,将包含collection1文件夹,这就是solr的一个实例.下面我们来看看collection1中的文件内容. collection1中包含conf和data两个子文件夹.data中包含tlog和index(如果没有也没关系,稍后再solr建立索引时,将会被创建).tlog是记录日志的文件夹,index是存放索引的文件夹.conf中包含lang文件夹和若干文件.lang文件夹中包含的是词库文件,但是so

BugPhobia准备篇章:团队Beta阶段准备工作分析

0x00:序言 To the searching tags, you may well fall in love withhttp://xueba.nlsde.buaa.edu.cn/ 再见,无忧时光~ 0x01 :Beta阶段会议记录(2015/10/24) 特别说明:Beta准备阶段的会议(2015/10/24~2015/12/07之间的全部会议全部不计入Scrum Meeting,实为准备阶段的集体讨论) 会议记录Github传送门:Beta阶段会议记录过渡阶段)(20151024).md

BugPhobia开发篇章:Beta阶段第I次Scrum Meeting

0x01 :Scrum Meeting基本摘要 Beta阶段第一次Scrum Meeting 敏捷开发起始时间 2015/12/10 00:00 A.M. 敏捷开发终止时间 2015/12/12 23:00 P.M. 会议基本内容摘要 ü  Beta阶段第一次Scrum Meeting主要总结准备阶段的工作安排,同时就此前由于编译课设目标代码生成而拖延的进度任务进行了基本的审核和说明,在沟通方面解决了和PowerTeam之间的协商问题,决定采取Solr框架提供的搜索机制,并针对部分需求进行了更改

BugPhobia开发篇章:Alaph阶段Scurm Meeting

0x01 :目录与摘要 If you weeped for the missing sunset, you would miss all the shining stars 索引 提纲 整理与更新记录节点 起始记录时间 终止记录时间 0x01 目录与摘要 初次整理于2015/10/23 2015/10/23 12:00 A.M. -- 0x02 Alaph阶段第一次Scrum Meeting 初次整理于2015/10/24 2015/10/23 12:00 A.M. 2015/10/24 12:

搜索引擎系列十:Solr(solrj 、索引API 、 结构化数据导入)

一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>7.3.0</version> </dependency> 2. SolrJ的核

solr 简单搭建 数据库数据同步(待续)

原来在别的公司负责过文档检索模块的维护(意思就是不是俺开发的啦).所以就稍微接触和研究了下文档检索. 文档检索其实是全文检索,是通过一种技术把N多文档进行一定规律的切割归类,然后创建易于搜索的索引式文件,然后搜索具有某些规律的文档时,能够通过快速定位索引,然后根据索引提供的信息精确定位到文档从而实现迅速找到文档.这个文档一般成为条目. 上家公司的时候使用的是Lucene加上Zoie实现的.lucene是apache下的开源项目,不过并不是全文检索的实现,而是一个全文检索的引擎,是一个架构,是其他