solr 5.3 提取pdf数据创建索引

solr-data-conofig.xml

<dataConfig>
<script><![CDATA[
id = 1;
function GenerateId(row) {
row.put(‘id‘, (id ++).toFixed());
return row;
}
]]></script>
<dataSource type="BinFileDataSource" />
<document >
<entity name="files" dataSource="binary" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="D:/temp/temp" fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"
recursive="true" transformer="script:GenerateId">
<field column="fileAbsolutePath" name="path" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity name="documentImport"

processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="file"/>
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="content"/>
</entity>
</entity>
</document>
</dataConfig>

scheam.xml

<field name="id" type="string" indexed="true" stored="true" multiValued="false" />
<field name="size" type="string" indexed="true" stored="true" multiValued="false" />
<field name="lastModified" type="date" indexed="true" stored="true" multiValued="false" />
<field name="path" type="string" indexed="true" stored="true" multiValued="false" />

<field name="file" type="string" indexed="true" stored="true" multiValued="false" />

<field name="title" type="string" indexed="true" stored="true" multiValued="false" />
<field name="author" type="string" indexed="true" stored="true" multiValued="false" />
<field name="content" type="string" indexed="true" stored="true" multiValued="false" />

主要的配置文件就这两个,其中需要一些jar包 如tika-paser自己导入。

 

时间: 2024-10-21 16:53:13

solr 5.3 提取pdf数据创建索引的相关文章

mongodb的基本操作之数据创建索引

在数据量较少时,不使用索引,查询是很快的,但是在数据量较大时,查询将会变得非常缓慢,在mongodb中 查看索引 > db.test_collection.getIndexes() [ { "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "config.test_collection" } ] 得到

60.大数据创建索引,并实现大文件的二分查找,迁移实现分层

index.h 1 #define _CRT_SECURE_NO_WARNINGS 2 #include<stdio.h> 3 #include<stdlib.h> 4 #define N 10000000 5 6 struct index 7 { 8 int *pindex; 9 int length; 10 }; 11 12 char **g_pp;//保存指针数组 13 char filepath[256]; 14 char sortpath[256]; 15 char in

Lucene 4.7 --创建索引

Lucene的最新版本和以前的语法或者类名,类规定都相差甚远 0.准备工作: 1). Lucene官方API http://lucene.apache.org/core/4_7_0/index.html 2). 我用到的常用JAR包下载:http://download.csdn.net/detail/yangxy81118/8062269 3). 所用到的jar包 lucene-analyzers-common-4.7.0.jar lucene-analyzers-smartcn-4.7.0.j

企业如何给MYSQL创建表,查询表,创建索引实例

创建表 数据类型   int(整形,整数) not null,char(字符) tinyint(最小的整形) varchar (变长的字符类型) create table xiaohu( id int(4) not null, name char(20) not null, age tinyint(2) not null default '0',(不可以为空,但可以给0) dept varchar(16) default null (可以为空) 如 mysql> create table stu

Kafka+Flume+Morphline+Solr+Hue数据组合索引

背景:Kafka消息总线的建成,使各个系统的数据得以在kafka节点中汇聚,接下来面临的任务是最大化数据的价值,让数据“慧”说话. 环境准备: Kafka服务器*3. CDH 5.8.3服务器*3,安装Flume,Solr,Hue,HDFS,Zookeeper服务. Flume提供了可扩展的实时数据传输通道,Morphline提供了轻量级的ETL功能,SolrCloud+Hue提供了高性能搜索引擎和多样的数据展现形式. 一.环境安装(略) 二.修改CDH默认配置: 1.在Flume配置界面配置F

PDF数据提取------3.解析Demo

1.PDF中文本字符串格式中关键值信息抓取(已完成) 简介:这种解析比较传统最简单主要熟练使用Regular Expression做语义识别和验证.例如抓取下面红色圈内关键信息 string mettingData=GetMeetingData(); public string GetMeetingData() { string patternAll = @"(?<NDAandCAMDate>会\s*议\s*.{2,15}\d{2,4}\s*年\s*\d{1,2}\s*月\s*\d{

【MySQL】MySQL中针对大数据量常用技术_创建索引+缓存配置+分库分表+子查询优化(转载)

原文地址:http://blog.csdn.net/zwan0518/article/details/11972853 目录(?)[-] 一查询优化 1创建索引 2缓存的配置 3slow_query_log分析 4分库分表 5子查询优化 二数据转移 21插入数据 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求.这个时候NoSQL的出现暂时解决了这一危机.它通过降低数据的安全性,减少对事务

Solr笔记四之Solrj创建索引和搜索的一般步骤

在solrj中创建索引的一般步骤:      1)创建一个SolrServer对象,SolrServer用于管理索引      2)创建SolrInputDocument对象,即文档对象,并且向文档对象添加字段      3)利用SolrServer对象的add方法添加SolrInputDocument对象,创建索引       4)调用SolrServer对象的commit()方法提交索引.       例如:            HttpSolrServer hss=new HttpSol

PDF数据提取------1.介绍

1.关于PDF文件     PDF(Portable Document Format的简称,意为“便携式文件格式”)是由Adobe Systems在1993年用于文件交换所发展出的文件格式.它的优点在于跨平台.能保留文件原有格式(Layout).开放标准,能自由授权(Royalty-free)自由开发PDF兼容软件.(PDF - 维基百科) 2.关于解析PDF 就像大神灵感之源的博文关于PDF的代码,真是多得不得了...,由于现在实习公司需要从大量文档中提取金融数据.对于网页解析我们有强大的Ht