Java查询大文本

但JAVA本身缺少相应的类库，需要硬编码才能实现结构化文件计算，代码复杂且可读性差，难以实现高效的并行处理。

使用免费的集算器可以弥补这一不足。集算器封装了丰富的结构化文件读写和游标计算函数，书写简单代码就能实现并行计算，并提供了易用的JDBC接口。JAVA应用程序可以将集算器脚本文件当做数据库存储过程执行，传入参数并用JDBC获得返回结果

下面举例说明集算器协助JAVA查询大文本的过程。

源数据sOrder.txt如下：

要查询起止时间是startDate、endDate之间，金额大于argAmount的订单，只需使用如下代码：

使用函数cursor以游标方式打开文件，@t表示将第1行读为列名。之后进行结构化查询，查询结果不大的情况下可以用fetch读入内存，如下：

如果查询结果内存装不下，可以在集算器中直接返回游标（即去掉A3代码），在JAVA中只需用JDBC流式读取即可获得计算结果。

集算器还可以实现多线程并行计算，最简单方法就是在上述代码的cursor函数中使用@m，这表示多线程读取文件。

也可以手工分段，在读取和计算部分都使用多线程并行计算，代码如下：

上述代码用8个游标打开文件，每次读取文件的指定部分。@z表示按字节数将文件大致分为几部分，只读取其中一部分，集算器会自动去头补尾，以保证取出的数据是整行。

函数conj可合并计算结果，@x表示合并的对象是游标，@m表示并行计算。需要注意的是，函数conj无法保证结果顺序和源数据一致。

上述代码使用了集算器内置的并行计算函数，如果计算过程较复杂，并且内存可以装下计算结果，则适合用显式并行计算语句。代码如下：

上述代码用8个子线程分别读取大文件，执行查询后再将结果返回给主线程。函数fork可执行子线程，作用范围B2-B3。线程内部可用A2来获取入口参数，线程外部可用A2获取所有线程的计算结果。

对于有序数据，可以用二分法来提高查询性能。比如数据已按Client和OrderID排序，现在要根据参数argClient和argOrder找出相应的记录，可以使用下面的代码：

begin,end是二分法的起止位置，m是中间位置。

B4:按字节数定位到中间位置，打开游标读入一条记录，集算器会自动实现去头补尾，取出完整记录。如果定位成功，则将当前记录存储在C5。如果定位不成功，则继续比较集合大小并重新设置begin,end。

获取【下载地址】

时间： 2024-08-26 01:59:39

Java查询大文本的相关文章

Java查询大文本文件的处理方法

有时我们需要查询大文本而不是数据库,这时就需要流式读入文件并实现查询算法,还要进行并行处理以提高性能.但JAVA本身缺少相应的类库,需要硬编码才能实现结构化文件计算,代码复杂且可读性差,难以实现高效的并行处理. 使用免费的集算器可以弥补这一不足.集算器封装了丰富的结构化文件读写和游标计算函数,书写简单代码就能实现并行计算,并提供了易用的JDBC接口.JAVA应用程序可以将集算器脚本文件当做数据库存储过程执行,传入参数并用JDBC获得返回结果. 集算器与Java应用程序的集成结构如下: 下面举例说

MySQL---数据库从入门走向大神系列(九)-用Java向数据库读写大文本/二进制文件数据

介绍MySQL的文本和图形数据类型: Text 类型: 数据类型:描述 ------------------------------------------------------ char(size):保存固定长度的字符串(可包含字母.数字以及特殊字符).在括号中指定字符串的长度.最多 255 个字符. varchar(size):保存可变长度的字符串(可包含字母.数字以及特殊字符).在括号中指定字符串的最大长度.最多 255 个字符. 注释:如果值的长度大于 255,则被转换为 text类型

Lucene初试——关于大文本建立索引和中文乱码以及QueryParser检索的一些体会

这几天因为一个小项目用到Lucene,于是去学习了一下,现在还有很多地方没有了解,先就我遇到的问题做下总结. 一.大文本建索引问题我这里说的大文本,实际上也就200M左右的txt,或许不应该成为大文本,但是我在建索引时遇到200M左右的的确导致了内存溢出,报错误java.lang.OutOfMemoryError: Java heap space ,到网上查了很久,试了一些方法,比如修改JVM的运行参数等,都不行.我测试的机器为i5四核,4G内存,实测时可用内存1G多,按说对于200M的文本不

mysql存取大文本text和批处理数据

public class ReadWriteBigData { /* create database bigdata; use bigdata; create table bigdata //创建表 ( id varchar(20)primary key, pinglun text,(大数据) image blob(二进制) );*/ public void insert() { try{ Connection con=DBHelper.getConnection(); String sql="

oracle存储大文本clob、blob

1 package cn.itcast.web.oracle.util; 2 3 import java.sql.Connection; 4 import java.sql.DriverManager; 5 import java.sql.ResultSet; 6 import java.sql.Statement; 7 8 public class JdbcUtil { 9 private static String driver = "oracle.jdbc.driver.OracleDri

sql 批处理、获取自增长、事务、大文本处理

批处理需要批量执行sql语句! 需求:批量保存信息! 设计: AdminDao Public void save(List<Admin list){ // 目前用这种方式 // 循环 // 保存 (批量保存) } Public void save(Admin admin ){ // 循环 // 保存 } 技术: |-- Statement 批处理相关方法 void addBatch(String sql) 添加批处理 void clearBatch() 清空批处理 int[] executeB

jdbc基础 (三) 大文本、二进制数据处理

LOB (Large Objects) 分为:CLOB和BLOB,即大文本和大二进制数据 CLOB:用于存储大文本 BLOB:用于存储二进制数据,例如图像.声音.二进制文件在mysql中,只有BLOB,没有CLOB,mysql存储大文本用TEXT TEXT 分为:TINYTEXT.TEXT.MEDIUMTEXT和LONGTEXT BLOB 分为:TINYBLOB.BLOB.MEDIUMBLOB和LONGBLOB 取值范围如下图: 下面来看具体的代码实现: 1 package com.cr

使用JDBC处理MySQL大文本和大数据

LOB,Large Objects,是一种用于存储大对象的数据类型,一般LOB又分为BLOB与CLOB.BLOB通常用于存储二进制数据,比如图片.音频.视频等.CLOB通常用于存储大文本,比如小说. MySQL数据库中没有专门的CLOB数据类型,而如果要存储大文本,MySQL采用的是TEXT类型.TEXT类型又有TINYTEXT.TEXT.MEDIUMTEXT和LONGTEXT之分.MySQL中的BLOB类型又可分为TINYBLOB.BLOB.MEDIUMBLOB和LONGBLOB. 使用JDB

大文本的存取

1 package cn.itcast.jdbc.lob; 2 3 import java.io.File; 4 import java.io.FileReader; 5 import java.io.FileWriter; 6 import java.io.Reader; 7 import java.io.Writer; 8 import java.sql.Connection; 9 import java.sql.PreparedStatement; 10 import java.sql.R