tika入门--获得文档内容和元数据

package com.wangchao.tika.demo;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.Reader;

import org.apache.tika.Tika;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.metadata.TikaCoreProperties;

public class MetadataDemo {

/**
     * @param args
     * @throws IOException
     * @throws FileNotFoundException
     */
    public static void main(String[] args) throws FileNotFoundException, IOException {
        // TODO 自动生成的方法存根
        Tika tika = new Tika();
        Metadata m = new Metadata();
        Reader r = tika.parse(new FileInputStream(new File("/home/wangchao/文档/Java网络socket编程详解.doc")), m);
        //获得内容
        BufferedReader br = new BufferedReader(r);
        String line = null;
        while((line=br.readLine())!=null){
            System.out.println(line);
        }
        //所有元数据
        System.out.println(m);
    }

}

tika入门--获得文档内容和元数据

时间: 2024-11-05 16:09:04

tika入门--获得文档内容和元数据的相关文章

文件与文档内容搜索工具软件

文件与文档内容搜索工具软件: 1.  Mythicsoft   https://mythicsoft.com/welcome 2.  Everything      - 电脑内文件搜索 3.文档大师又名"针式PKM"是一款功能强大.老牌的个人文档管理系统.   http://www.pinpkm.com/

asp.net页面读取word文档内容显示

用asp.net实现对指定word文档内容的读取显示该如何实现?比如左边读取指定文件夹中所有的word文档,以文档的标题作为链接,点击文档标题则在右边某位置显示出该word文档中的内容(包括字体样式,图片显示等). 可以这样实现: 操作WORD配置说明 引入:Word的对象库文件“MSWORD.OLB”(word 2000为MSWORD9.OLB) 1.运行Dcomcnfg.exe 2.组件服务――计算机――我的电脑――DCOM配置――找到microsoft word 文档 3.点击属性 4.选

使用NOPI读取Word、Excel文档内容

使用NOPI读取Excel的例子很多,读取Word的例子不多. Excel的解析方式有多中,可以使用ODBC查询,把Excel作为一个数据集对待.也可以使用文档结构模型的方式进行解析,即解析Workbook(工作簿).Sheet.Row.Column. Word的解析比较复杂,因为Word的文档结构模型定义较为复杂.解析Word或者Excel,关键是理解Word.Excel的文档对象模型. Word.Excel文档对象模型的解析,可以通过COM接口调用,此类方式使用较广.(可以录制宏代码,然后替

java操作office和pdf文件java读取word,excel和pdf文档内容

在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应用.如果想深入了解原理.请读者自行研究一些相关源码. 首先我们来认识一下读取相关文档的jar包: 1. 引用POI包读取word文档内容 poi.jar 下载地址 http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip 

Activit最入门学习文档,从如何创建项目开始共20章,看完,任何Java项目集成无压力

Activit流程引擎 本人水平,刚自学java一个多月,然后看视频做的笔记,全部傻瓜式截图教程,反正我学习之前没在网上搜索到任何小白教程, Activit官方的教程真心看不懂,因为都是文字 没具体创建步奏,所以对新手来说很无奈, 然后吧,就把自己的学习经验贡献出来啦 最小白的文档,看完之后,集成到任何java项目中都无压力,我最后的是做了个Jfinal集成,估计这是网上搜到最全的容易懂的入门学习文档,本人自学java一个月,反正我看官方例子什么的都看不懂,然后各搜素也没收到教程视频,还好有别人

Mongodb(2)创建数据库,删除数据库,创建集合,删除集合,显示文档内容

显示所有数据库列表:show dbs > show dbs local 0.078GB runoob 0.078GB > 显示当前数据库:db > db runoob > 显示所有集合:show collections  --显示当前数据库的所有集合 > show collections col_1 col_2 runoob system.indexes > 创建数据库:use DataBase_Name  --创建名字为DataBase_Name的数据库,并切换到创建

编辑PDF文档内容有哪些方法

PDF文件采用的是字型嵌入系统,能将字型随文件一起进行传输,所以文档在浏览查看以及传输上要优于word文档文档格式,但是这种文档在编辑的时候就没那样简单了,要是在遇到PDF格式的文档需要编辑该怎样去处理呢. 要编辑PDF文档的内容就不能用阅读器来打开文档,pdf阅读器只能查看文档的显示效果,编辑不了文档的内容,因此需要用PDF编辑软件来打开PDF文档才能对pdf文件的内容修改. 打开PDF文档后我们可以在右边窗格的编辑区来对文档内容进行编辑,可以用左边的页面缩略图来切换编辑页面. PDF的文本内

将pdf文档内容转换成jpg图片的方法

将一些文档资料发送给别人查看时,如果不想被别人修改,那么可以把文档内容以图片方式进行方式,也就是将文档转换成一张张的jpg格式的图片.例如一些word文档资料,Excel格式报表或者是PDF格式文件.有些时候页面内容较多,用截图的方式可能会使页面内容截取不完整,或者不清晰,而且对于一些较大的文档也不适合用这种方法,就以pdf格式为例,如何将pdf转成jpg格式的图片呢? 要把文档的页面内容转换成jpg格式的图片需要用相应的转换工具来进行操作.所以需要先安装一个pdf转换成jpg软件. 1 打开转

织梦DedeCMS首页调用单页文档内容的方法

很多使用织梦dedecms单页文档功能的朋友都想知道如何在织梦首页调用单页文档的内容,下面就教大家具体的实现方法: 具体步骤如下: 首先在首页模板需要显示单页文档内容的地方插入如下代码: {dede:sql sql="SELECT body FROM `dede_sgpage` where aid = 3" } [field:body function="htmlspecialchars(cn_substr(@me,100))"/] {/dede:sql} 代码里面