1.6.9 UIMA Integration

1. UIMA 集成

  你可以使用solr集成Apache的非结构化信息管理架构(UIMA).UIMA可以让你定义自己的分析引擎通道,逐步添加元数据到文档的标注.

  关于Solr UIMA的更多信息,参考https://wiki.apache.org/solr/SolrUIMA.

1.1 Configuring UIMA

 solr UIMA的UpdateRequestProcessor是一个自定义的更新请求处理器.发送它们给UIMA管道,然后返回具有丰富元数据的文档.按照下面步骤配置UIMA:

  1. solrconfig.xml,复制/solr-4.x.y/dist/solr-uima-4.x.y.jar包和它的contrib/uima/lib下面的类库到solr的类库目录下.

<lib dir="../../contrib/uima/lib" />
<lib dir="../../dist/" regex="solr-uima-\d.*\.jar" />

  2.schema.xml中,添加元数据字段:

<field name="language" type="string" indexed="true" stored="true"  required="false" />
<field name="concept" type="string" indexed="true" stored="true" multiValued="true" required="false" />
<field name="sentence" type="text" indexed="true" stored="true" multiValued="true" required="false" />

  3.在solrconfig.xml中添加如下片段:

<updateRequestProcessorChain name="uima">
    <processor
        class="org.apache.solr.uima.processor.UIMAUpdateRequestProcessorFactory">
        <lst name="uimaConfig">
            <lst name="runtimeParameters">
                <str name="keyword_apikey">VALID_ALCHEMYAPI_KEY</str>
                <str name="concept_apikey">VALID_ALCHEMYAPI_KEY</str>
                <str name="lang_apikey">VALID_ALCHEMYAPI_KEY</str>
                <str name="cat_apikey">VALID_ALCHEMYAPI_KEY</str>
                <str name="entities_apikey">VALID_ALCHEMYAPI_KEY</str>
                <str name="oc_licenseID">VALID_OPENCALAIS_KEY</str>
            </lst>
            <str name="analysisEngine">
                /org/apache/uima/desc/OverridingParamsExtServicesAE.xml
            </st
r>
                <!-- Set to true if you want to continue indexing even if text processing
                    fails. Default is false. That is, Solr throws RuntimeException and never
                    indexed documents entirely in your session. -->
                <bool name="ignoreErrors">true</bool>
                <!-- This is optional. It is used for logging when text processing fails.
                    If logField is not specified, uniqueKey will be used as logField. <str name="logField">id</str> -->
                <lst name="analyzeFields">
                    <bool name="merge">false</bool>
                    <arr name="fields">
                        <str>text</str>
                    </arr>
                </lst>
                <lst name="fieldMappings">
                    <lst name="type">
                        <str name="name">org.apache.uima.alchemy.ts.concept.ConceptFS</str>
                        <lst name="mapping">
                            <str name="feature">text</str>
                            <str name="field">concept</str>
                        </lst>
                    </lst>
                    <lst name="type">
                        <str name="name">org.apache.uima.alchemy.ts.language.LanguageFS</str>
                        <lst name="mapping">
                            <str name="feature">language</str>
                            <str name="field">language</str>
                        </lst>
                    </lst>
                    <lst name="type">
                        <str name="name">org.apache.uima.SentenceAnnotation</str>
                        <lst name="mapping">
                            <str name="feature">coveredText</str>
                            <str name="field">sentence</str>
                        </lst>
                    </lst>
                </lst>
        </lst>
    </processor>
    <processor class="solr.LogUpdateProcessorFactory" />
    <processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
时间: 2024-11-08 21:44:24

1.6.9 UIMA Integration的相关文章

1.6 Indexing and Basic Data Operations--目录

1.6.1 什么是 Indexing 1.6.2 Uploading Data with Index Handlers 1.6.3 Uploading Data with Solr Cell using Apache Tika 1.6.4 Uploading Structured Data Store Data with the Data Import Handler 1.6.5 Updating Parts of Documents 1.6.6 De-Duplication(重复数据删除) 1

The influence of informal governance mechanisms on knowledge integration

Title:The influence of informal governance mechanisms on knowledge integration within cross-functional project teams: A social capital perspective Journal:KNOWLEDGE MANAGEMENT RESEARCH & PRACTICE ABSTRACT :This paper aims to explore the influence of

EMC Networker And VMware Integration Guide

一.环境介绍 主机名称 IP 角色 版本 vcenter.xzxj.edu.cn 172.16.255.36 vcenter服务器 5.5 node01.xzxj.edu.cn 172.16.255.153 vsphere esxi 5.5 node02.xzxj.edu.cn 172.16.255.154 vsphere esxi 5.5 tsmbak.xzxj.edu.cn 172.16.255.80 networker服务器 8.2 ebr.xzxj.edu.cn 172.16.255.7

ETL工具 — Data Integration (Kettle) 下载安装

一.Data Integration(Kettle) 是基于java开发的一款软件,首先必须先安装JDK. 1.下载JDK安装包,下载地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html 点击下载按钮进入下载界面  ,根据系统选择相应的版本下载. 2.下载后安装JDK,安装过程中可以自定义安装目录等信息,例如我们选择安装目录为 C:\Program Files\Java\jdk1.8.0_112. 3.安装完

Linux Integration Services 4.1 更新发布

关于linux的学习,请参考书籍<linux就该这么学> 微软已经正式发布了 LIS 4.1,此次更新的新功能特性如下:新增对 Red Hat Enterprise Linux.CentOS 和 Oracle Linux 的 5.2.5.3.5.4 及 7.2 版本的支持支持 Hyper-V Sockets支持内存热插拔支持SCSI WNNlsvmbus 更新增加 LIS 卸载脚本 安装之后,Linux Integration Services 提供 驱动程序支持:LIS 支持 Hyper-V

论文笔记之:Heterogeneous Image Features Integration via Multi-Modal Semi-Supervised Learning Model

Heterogeneous Image Features Integration via Multi-Modal Semi-Supervised Learning Model ICCV 2013 本文提出了一种结合多种传统手工设计 feature 的多模态方法,在 label propagation 的基础上进行标签传递,进行半监督学习,综合利用各种 feature 的优势,自适应的对各种feature 的效果进行加权,即:对于判别性较好的 feature给予较高的权重,较差的 feature

Verlet Integration

Verlet Integration Verlet 积分法是一种用于求解牛顿运动方程的数值方法,被广泛运用于动力学模拟以及视频游戏中.尔莱算法的优点在于:数值稳定性比简单的欧拉方法高很多,并保持了物理系统中的时间可逆性与相空间体积元体积守恒的性质. 基本韦尔莱算法 根据牛顿运动方程有 代入到粒子的位移关于时间步的泰勒展开式中有: 得到 同理 两式相加得 则 新位置的计算误差为四阶, 为时间步.因而韦尔莱算法中不涉及速度,如果希望得到速度,可以从前面的两式相减得出 速度表示的韦尔莱算法 一般地,速

第十五篇 Integration Services:SSIS参数

本篇文章是Integration Services系列的第十五篇,详细内容请参考原文. 简介在前一篇,我们使用SSDT-BI将第一个SSIS项目My_First_SSIS_Project升级/转换到SSIS 2012.在这一篇,我们将探讨SSIS变量的姊妹:SSIS参数.我们将展示参数配置,通过包参数管理动态属性值,以及在SSIS包执行期间参数是如何配置和使用的.首先在SSDT-BI打开转换过的My_First_SSIS_Project,如图15.1所示:图15.1My_First_SSIS_P

第十三篇 Integration Services:SSIS变量

本篇文章是Integration Services系列的第十三篇,详细内容请参考原文. 简介在前一篇我们结合了之前所学的冒泡.日志记录.父子模式创建一个自定义的SSIS包日志记录模式.在这一篇,我们将升级我们的解决方案为SQL Server 2012 Integration Services,演示SSIS变量,变量配置和表达式管理动态值.在前面的练习中我们已经使用过变量,但我们没有深入学习,这一篇,我们将关注SSIS变量.…………一旦安装好,你可以设置主题颜色,工具->选项->环境->常