solr 5.3 提取pdf数据创建索引

solr-data-conofig.xml

<dataConfig>
<script><![CDATA[
id = 1;
function GenerateId(row) {
row.put(‘id‘, (id ++).toFixed());
return row;
}
]]></script>
<dataSource type="BinFileDataSource" />
<document >
<entity name="files" dataSource="binary" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="D:/temp/temp" fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"
recursive="true" transformer="script:GenerateId">
<field column="fileAbsolutePath" name="path" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity name="documentImport"

processor="TikaEntityProcessor"
url="${files.fileAbsolutePath}"
format="text">
<field column="file" name="file"/>
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="content"/>
</entity>
</entity>
</document>
</dataConfig>

scheam.xml

<field name="id" type="string" indexed="true" stored="true" multiValued="false" />
<field name="size" type="string" indexed="true" stored="true" multiValued="false" />
<field name="lastModified" type="date" indexed="true" stored="true" multiValued="false" />
<field name="path" type="string" indexed="true" stored="true" multiValued="false" />

<field name="file" type="string" indexed="true" stored="true" multiValued="false" />

<field name="title" type="string" indexed="true" stored="true" multiValued="false" />
<field name="author" type="string" indexed="true" stored="true" multiValued="false" />
<field name="content" type="string" indexed="true" stored="true" multiValued="false" />

主要的配置文件就这两个，其中需要一些jar包如tika-paser自己导入。

时间： 2024-10-21 16:53:13

solr 5.3 提取pdf数据创建索引的相关文章

mongodb的基本操作之数据创建索引

在数据量较少时,不使用索引,查询是很快的,但是在数据量较大时,查询将会变得非常缓慢,在mongodb中查看索引 > db.test_collection.getIndexes() [ { "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_", "ns" : "config.test_collection" } ] 得到

60.大数据创建索引,并实现大文件的二分查找,迁移实现分层

index.h 1 #define _CRT_SECURE_NO_WARNINGS 2 #include<stdio.h> 3 #include<stdlib.h> 4 #define N 10000000 5 6 struct index 7 { 8 int *pindex; 9 int length; 10 }; 11 12 char **g_pp;//保存指针数组 13 char filepath[256]; 14 char sortpath[256]; 15 char in

Lucene 4.7 --创建索引

Lucene的最新版本和以前的语法或者类名,类规定都相差甚远 0.准备工作: 1). Lucene官方API http://lucene.apache.org/core/4_7_0/index.html 2). 我用到的常用JAR包下载:http://download.csdn.net/detail/yangxy81118/8062269 3). 所用到的jar包 lucene-analyzers-common-4.7.0.jar lucene-analyzers-smartcn-4.7.0.j

企业如何给MYSQL创建表，查询表，创建索引实例

创建表数据类型 int(整形,整数) not null,char(字符) tinyint(最小的整形) varchar (变长的字符类型) create table xiaohu( id int(4) not null, name char(20) not null, age tinyint(2) not null default '0',(不可以为空,但可以给0) dept varchar(16) default null (可以为空) 如 mysql> create table stu

Kafka+Flume+Morphline+Solr+Hue数据组合索引

背景:Kafka消息总线的建成,使各个系统的数据得以在kafka节点中汇聚,接下来面临的任务是最大化数据的价值,让数据“慧”说话. 环境准备: Kafka服务器*3. CDH 5.8.3服务器*3,安装Flume,Solr,Hue,HDFS,Zookeeper服务. Flume提供了可扩展的实时数据传输通道,Morphline提供了轻量级的ETL功能,SolrCloud+Hue提供了高性能搜索引擎和多样的数据展现形式. 一.环境安装(略) 二.修改CDH默认配置: 1.在Flume配置界面配置F

PDF数据提取------3.解析Demo

1.PDF中文本字符串格式中关键值信息抓取(已完成) 简介:这种解析比较传统最简单主要熟练使用Regular Expression做语义识别和验证.例如抓取下面红色圈内关键信息 string mettingData=GetMeetingData(); public string GetMeetingData() { string patternAll = @"(?<NDAandCAMDate>会\s*议\s*.{2,15}\d{2,4}\s*年\s*\d{1,2}\s*月\s*\d{

【MySQL】MySQL中针对大数据量常用技术_创建索引+缓存配置+分库分表+子查询优化（转载）

原文地址:http://blog.csdn.net/zwan0518/article/details/11972853 目录(?)[-] 一查询优化 1创建索引 2缓存的配置 3slow_query_log分析 4分库分表 5子查询优化二数据转移 21插入数据如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求.这个时候NoSQL的出现暂时解决了这一危机.它通过降低数据的安全性,减少对事务

Solr笔记四之Solrj创建索引和搜索的一般步骤

在solrj中创建索引的一般步骤: 1)创建一个SolrServer对象,SolrServer用于管理索引 2)创建SolrInputDocument对象,即文档对象,并且向文档对象添加字段 3)利用SolrServer对象的add方法添加SolrInputDocument对象,创建索引 4)调用SolrServer对象的commit()方法提交索引. 例如: HttpSolrServer hss=new HttpSol

PDF数据提取------1.介绍

1.关于PDF文件 PDF(Portable Document Format的简称,意为“便携式文件格式”)是由Adobe Systems在1993年用于文件交换所发展出的文件格式.它的优点在于跨平台.能保留文件原有格式(Layout).开放标准,能自由授权(Royalty-free)自由开发PDF兼容软件.(PDF - 维基百科) 2.关于解析PDF 就像大神灵感之源的博文关于PDF的代码,真是多得不得了...,由于现在实习公司需要从大量文档中提取金融数据.对于网页解析我们有强大的Ht

猜你喜欢

一个美丽的java烟花程序

<img src="http://img.blog.csdn.net/20150625104525974?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi ...

C++的类型转换：static_cast、dynamic_cast、reinterpret_cast和const_cast（dynamic_cast还支持交叉转换，const_cast将一个类的const、volatile以及__unaligned属性去掉）

在C++中,存在类型转换,通常意味着存在缺陷(并非绝对).所以,对于类型转换,有如下几个原则:(1)尽量避免类型转换,包括隐式的类型转换(2)如果需要类型转换,尽量使用显式的类型转换,在编译期间转换( ...

.NET 设计模式之单例模式（一）

1.简单解释:在创建对象时,无论创建多少次,在堆空间上只会申请一次内存空间. 2.例子: public class Singleton{ private static Singletom _singl ...

HTML: xhtml和html的區別

XHTML 与 HTML 4.01 标准没有太多的不同. 另外,你应该马上使用小写字母编写HTML代码,同时绝不要养成忽略类似 </p> 标签的坏习惯. 最主要的不同: XHTML 元素必 ...

jQuery基础知识

js与jQuery的比较与区别 js是脚本语言 jquery是用js开发出来的架构 1 定位元素 JS document.getElementById("abc") jQuery ...

豌豆荚codis描述

Codis 是一个分布式 Redis 解决方案, 对于上层的应用来说, 连接到 Codis Proxy 和连接原生的 Redis Server 没有明显的区别 (不支持的命令列表), 上层应用可以像使 ...

闲聊: 女神异闻录4

最近在玩P4G, 将近一周目. 觉得游戏制作的非常不错. P4G是AVG和回合RPG结合的风格. 比较感兴趣的是到了冬季, 所有场景都变成白雪覆盖. 这个要处理的东西其实还是蛮多的: 出了飘雪以外, ...

[LeetCode] 034. Search for a Range (Medium) (C++/Java)

索引:[LeetCode] Leetcode 题解索引 (C++/Java/Python/Sql) Github: https://github.com/illuz/leetcode 035. Sea ...

jqery ajax读取json文件

json文件数据 [ {"name":"哈哈··","email":"邮箱01","gender": ...

Java实战之03Spring-02Spring的核心之IoC

二.Spring的核心之IoC(Inversion of Control 控制反转) 1.IoC是什么? 回顾:连接池原理中的使用. 注意:我们在连接池原理中是使用构造函数注入的,当然还可以通过提供s ...

关于java中异常机制

什么是异常:异常就是程序在运行时出现的不正常情况.对于严重的情况Java通过Error类进行描述,一般不用编写代码处理:对于不严重的情况Java通过Exception描述,一般编写针对性代码对其进行处 ...

牙靡贤酪盐l91pkm5t882gwx

http://3188.la/article/?aid=5629022663419857c47009ddhttp://t5ja6yjz.pp.163.comhttp://3188.la/article ...

浅谈Windows中DLL导出类

一般的DLL导出类方法,一个简单的例子: dllExample.h: 1 #pragma once 2 3 #ifdef DLL_EXPORTS 4 #define DLL_API __declspe ...

Integer自动装箱拆箱bug,创建对象在-128到127

1 public class Demo3 { public static void main(String[] args) { Integer a = 1; Integer b = 2; Intege ...

Win7 + Ubuntu 14.04 +tomcat + mysql 搭建测试环境手册

一.Win7下做安装ubuntu 下载ununtu14.04和EasyBCD软件 Win7下要腾出一个盘来安装ubuntu.我是格式化掉F盘,然后回到桌面,右键点击计算机-->管理-->存 ...

HDU 1022

Train Problem I Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...

hdu1054 Strategic Game（最小覆盖点-树形dp）

题目链接:点击打开链接题意描述:给一棵树,找最少的点集能把树上的所有边覆盖掉? 解题思路:典型的最小覆盖点树形dp即可 dp[i][0]:表示如果不选i点则dp[i][0]+=dp[t][1];/ ...

【转载】8天学通MongoDB——第四天索引操作

这些天项目改版,时间比较紧,博客也就没跟得上,还望大家见谅. 好,今天分享下mongodb中关于索引的基本操作,我们日常做开发都避免不了要对程序进行性能优化,而程序的操作无非就是CURD,通常我们又 ...

什么是计算机的程序? 什么是目标程序? 什么是源程序?

高级语言编写的程序--源程序机器语言编写的程序--目标程序将源程序转换成目标程序的程序--翻译程序(编译程序.解释程序)将源程序整个翻译成目标程序后执行--编译程序对源程序中的语句翻译一条执行一条-- ...

随机生成激活码

# -*- coding: utf-8 -*- import random def getcode(): s='0123456789ZXCVBNMASDFGHJKLQWERTYUIOP' code=[ ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.