Tika检测文件类型

Tika类型检测

Tika支持MIME所提供的所有互联网媒体文件类型。每当一个文件通过Tika检测到该文件,其文件类型。检测的介质类型,Tika内部通过以下机制。

MIME标准

多用途Internet邮件扩展(MIME)标准,用于识别文件类型的最佳标准。这些标准的知识有助于在内部相互作用的浏览器。

当浏览器遇到一个媒体文件,它选择可用它来显示其内容的兼容软件。在情况下,它不具有任何合适的应用程序,以运行一个特定媒体文件,它建议用户获得合适的插件软件。

使用Facade类类型检测

facade类的detect() 方法被用于检测文档类型。这个方法接受一个文件作为输入。

下面显示的是文件类型检测与Tika外观类的示例程序。

  • 传入参数为File对象时
  @Test
    public void getImageToJPEG() {
        try {
            File file = new File("C:\\Users\\hww\\Downloads\\0855fde2df59fa4fe9427e78d773dde5.jpeg");
            Tika tika = new Tika();
            String fileType = tika.detect(file);
            System.out.println(fileType);//image/jpeg
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

输出结果

image/jpeg
  • 传入参数为文件路径时
   @Test
    public void getImageToJPG() {
        try {
            Tika tika = new Tika();
            String fileType = tika.detect("C:\\Users\\hww\\Downloads\\95a59c718b2575fdbccf66924c14fcd5.jpg");
            System.out.println(fileType);//image/jpeg
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

输入结果:

image/jpeg
  • detect()方法参数有以下几种:

原文地址:https://www.cnblogs.com/hww-2429/p/11592753.html

时间: 2024-10-11 09:18:25

Tika检测文件类型的相关文章

根据文件头检测文件类型

文件签名一般都在文件的头部,如果你用十六进制方式查看文件,你就可以看到文件的一些签名信息.如用uestudio以十六进制方式查看zip格式的文件,其文件内容头部有50 4B 03 04这样的十六进制信息.同理jpg文件状况有FF D8 FF E0 xx xx 4A 46这样的十六进制信息,其实这此十六进制都是表示一些特殊字条. php怎么样验证文件类型?先来看一个简单的方法: function checkFileType($fileName){ $file = fopen($fileName,

检测文件类型脚本

考核内容test文件类型测试编辑文件利用test文件类型测试思路先确认文件为空时处理方式确认文件不存在时处理方式确认文件存在时类型的处理方式 文件类型 普通文件文件类型目录文件类型 块文件文件类型 字符块文件文件类型 套接字文件 原文地址:https://blog.51cto.com/14190777/2434109

UNIX高级环境编程(3)Files And Directories - stat函数,文件类型,和各种ID

在前面的两篇,我们了解了IO操作的一些基本操作函数,包括open.read和write. 在本篇我们来学习一下文件系统的其他特性和一个文件的属性,涉及的函数功能包括: 查看文件的所有属性: 改变文件所有者: 改变文件权限: 操作文件夹. 我们还会了解一些文件系统相关的数据结构和符号链接(symbolic link). 1 函数stat.fstat.fstatat.lsat函数 #include <sys/stat.h> int stat(const char *restrict pathnam

wordpress上传附件提示抱歉,出于安全的考虑,不支持此文件类型

wordpress添加自定义上传附件类型添加rar支持 在wp-includes/functions.php文件中查找application/zip,在“// openoffice formats”这行的上面加上 'rar' => 'application/rar', 其它解决办法 方法1:使用winrar压缩的时候“压缩文件格式”选择为zip. 方法2:直接禁用文件类型检测,在wp-config.php文件中,添加这样一句代码 define(‘ALLOW_UNFILTERED_UPLOADS’

ASP.net 判断上传文件类型的三种方法

一. 安全性比较低,把文本文件1.txt改成1.jpg照样可以上传,但其实现方法容易理解,实现也简单,所以网上很多还是采取这种方法. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Boolean fileOk = false;           string path = Server.MapPath("~/images

LAMP--Apache 不记录指定文件类型的日志

如果一个站点的访问量特别大,那么访问日志就会很多,但有一些访问日志我们其实是可以忽略的,比如网站的一些图片,还有 js,css 等静态对象.而这些文件的访问往往是巨量的,记录这些日志也没什么用,那就可以忽略掉这些访问的日志了. 相关配置是在虚拟主机配置文件中加入以下语句: [[email protected] ~]# vim /usr/local/apache2/conf/extra/httpd-vhosts.conf     SetEnvIf Request_URI ".*\.gif$&quo

Java如何获取Content-Type的文件类型Mime Type

在Http请求中,有时需要知道Content-Type类型,尤其是上传文件时,更为重要,虽然有些办法可以解决,但都不太准确或者繁琐,索性我发现一个开源的类库能够解决相对完美的解决这个问题,它就是jMimeMagic. jMimeMagic是一个用来检测文件或者数据流的 MIME 类型的 Java 类库. 最新版本是V 0.1.2.需要jar包:commons-logging-1.0.x.jar,log4j-1.2.x.jar 下载地址:点击打开链接 它的用法很简单,如下: File file =

黄聪:wordpress前台自定义用户,调用wp_editor上传附件提示【抱歉,出于安全的考虑,不支持此文件类型】错误。

1.直接禁用文件类型检测,在wp-config.php文件中,添加这样一句代码define('ALLOW_UNFILTERED_UPLOADS', true); 2.在functions.php里面,添加下面代码(最重要是黄色背景那2句): <? // 添加一个角色,允许地区编辑添加 add_role('dq_edit','地区编辑', array( 'level_3' => true, 'read' => true, 'edit_posts' => true, 'edit_pub

linxu的文件类型和扩展名

1)windows 里是通过扩展名来区分文件类型的. 2)linux里文件扩展名和文件类型没有关系. 3)为了容易区分和兼容用户使用windows的习惯,我们也会用扩展名来区分文件类型. 在linux系统中,可以说一切皆文件. 文件类型包含有普通文件.目录.字符设备文件.块设备文件.符号链接文件等: -type c              File is of type c: b      block (buffered) special c      character (unbuffere