POI 读大文件日志

POI的三个目录

usermodel 包含很多类，方便用户使用，但是占用内存大

eventusermodel 使用xml的SAX事件解析，XSSFReader创建时必须使用OPCPackage，pkg这个对象是通过OPCPackage.open(File或者inputStream)创建出来的，这个过程是将excel文件解析成了xml文档（？），对于一个50M的excel占用内存达到500M左右。

后面解析这个xml时才用到SAX事件，

原文地址：https://www.cnblogs.com/yszzu/p/9648579.html

时间： 2024-08-05 15:03:43

POI 读大文件日志的相关文章

ATS读大文件（命中）

大文件存储结构和小文件完全不同,小文件占一个fragment就够了,小文件占若干个fragment.小文件第一个是doc只存一些信息数据,包括http头,资源的content存在于若干个fragment中,默认每个fragment展1048576字节,在proxy.config.cache.target_fragment_size中可以改.一个fragment中有72个字节是doc,剩下的是资源的content.ats会先读第一个fragment,然后以循环的方式读取若干个fragment,直到

读大文件到mysql

起初使用java读文件处理格式后存入数据库,运行后发现,效率太低太低,4G文本,4000多万行,估计需要30天左右才能完成处理. 数据格式: 每行-> XXXX ||| XXXXXXX ||| XXXXXXXXXXXXXXXXX 数据是严格结构化的,因此查询到一种直接从文件导入mysql的方法: Load Data infile 参考文章:http://hunan.iteye.com/blog/752606 使用的指令如下: load data infile '/home/lenovo/文档/

shell在大文件日志中按照时间段快速搜索日志

问题描述: 在大流量线上服务中,日志系统会产生数量庞大的日志,动辄就是几十G.在如此之大的文件中快速搜索日志是运维人员经常遇见的问题.我们经常遇见的问题是查询一段时间内的某些条日志.比如,今天有一个访问失败了,大约是在上午9点,把这条日志找出来,然后查找失败原因. 常见处理方式及缺点: 1.如果文件比较小,100m以内使用grep.awk或者sed进行逐条匹配比较方便,但是文件非常大时,其查找效率是非常低的,运行时间长达几十分钟甚至上小时. 2.使用hadoop大数据处理,查询速度快,效率高.但

统计大文件日志访问量

日志格式: #Version: 1.0 #Fields: date time time-taken x-c_username bytes c-ip s-ip sc-status cs-method cs-uri-stem cs-uri x-c_sessionid #Software: WebLogic #Start-Date: 2017-03-27 00:01:13 2017-03-27 00:01:13 0.043 - 32 10.33.215.218 10.12.216.147:30573

java读写文件，读超大文件

一直在处理爬虫,经常能遇到读写文件的操作,很多时候都是读写超大文件,记录如下: 一.读文件 import java.io.BufferedOutputStream; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.FileReader; import java.io.FileWriter; import java.io.IOException;

Java NIO内存映射---上G大文件处理

林炳文Evankaka原创作品.转载请注明出处http://blog.csdn.net/evankaka 摘要:本文主要讲了java中内存映射的原理及过程,与传统IO进行了对比,最后,用实例说明了结果. 一.java中的内存映射IO和内存映射文件是什么? 内存映射文件非常特别,它允许Java程序直接从内存中读取文件内容,通过将整个或部分文件映射到内存,由操作系统来处理加载请求和写入文件,应用只需要和内存打交道,这使得IO操作非常快.加载内存映射文件所使用的内存在Java堆区之外.Java编程语言

Java NIO内存映射---上G大文件处理（转）

FileOutputStream字节输出流和FileInputStream输入流（切记：out是输出到本地中,in是输入到程序中）这里介绍大文件和小文件的读取方式

//FileOutputStream public class FileOutputStreamDemo { /**字节流:适用于任何文件,以字节为单位,进行读写操作 *字节流操作步骤: *1.创建文件对象 *2.创建字节流 *3.读写操作 *4.关闭流 */ //字节流(写操作) public static void main(String[] args) { String messageString = "hello world"; byte[] bytes = me

多线程读取大文件，尤其是对日志文件分析很有用。

我在之前的公司里工作的时候,他们要求我做一个能够分析IIS日志的程序,可我做来做去,也只能做到,1个G的文件读取在140秒左右.愁了很久,想到了用多线程读取大文件的方法,又发现文件读取流可以有很多个,于是我就开始编写,写出来,其效率 4核CPU,可以达到14秒,提高了10倍. 而且据我测试发现,我4个CPU,用8个线程读取效率最高,所以我想会不会是一个CPU挂2个文件流效率最高,故基本逻辑是这样的,我根据CPU核数,将文件分成8块,分成8块的时候,必定出现,一行被截断的情况,针对这种情况,我采用