纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出,通过该程序库,用户可以轻松获得各种格式文档的文字信息,方便检索和处理。
功能:
(1)文件自动识别:可识别源生成文件和其版本,文件的识别不是根据文件的扩展名,而是根据文件内部信息进行识别。
(2)文本抽出:从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
(3)属性抽出:从指定文件中,将文件属性抽出到属性结构体中。
(4)页面抽出:从指定文件中,抽出指定页中的文本数据。
(5)加密PDF文件抽出:从设定了安全包保护的PDF中抽出文本数据。
特点:方便、实用、快捷、及时、准确、完整的找到您想要的信息。
(1)模块化程序设计:采用灵活、合理的模块化程序设计与结构,可以高速化进行文本抽出,对新的文件格式迅速作出模块对应。具备多语言处理的程序模块,且各模块具有可移植性。
(2)支持多平台操作:
windows版(暂无WIN7)、sun sparc版solaris2.5以上、 linux(glibc2.1以上)、IBM IX 5L
version5.1、powerPC MacOS
X
(3)支持多语言:中文(简/繁),英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合,生成标准html文档,适用于各种浏览器。
(4)支持多线程技术:支持server端多道并发操作,方便用户嵌入各种应用系统。
(5)支持数十种数据文件格式:ms
office系列、microsoft rtf、adobo
pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列(eml,msg)、压缩文件系列(zip,rar,lzh,tar,gzip)
、html、xml等数十种数据文件格式。
(6)提供多种形式的API函数接口:C++/C、COMM、perl的API函数接口。
应用领域:
图书馆(各大图书论坛)、Internet搜索引擎、mail检索系统等大型应用系统中。

了解更多请回复交流

时间: 2024-07-30 06:34:19

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!的相关文章

数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种

数据抽取工具——DMCTextFilter(纯文本抽出通用程序库)

DMC文本抽出支持office.pdf.邮件.压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件.压缩文件中的压缩文件.嵌入文件中的文件的文本提取. DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文

自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于"笔画宽度变换"(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本

文本编辑器通用快捷键

编辑 快捷键 功能 Home 行首 End 行尾 Ctr + Home 文本开头 Ctr + End 文本结尾 Crt + A 全选 Ctr + C 复制 Ctr + V 黏贴 Crt + X 剪贴 Ctr + Z 撤销 Ctr + Y 恢复 Ctr + 上下箭头 行上下移动 Ctr + Shift + 左/右箭头 向左/右选择单词 Shift + 箭头 选择 功能 快捷键 功能 Ctr + F 查找 Ctr + P 替换 文件 快捷键 功能 Ctr + N 新建 Ctr + O 打开 Ctr

php从文本读入数据,处理结果再导入到文本

1,php从文本逐行读入数据,保存到数据组.使用fopen读取文本内容,逐行读取文本是$majorId = trim(fgets($rfile, 4096));. $rfile = fopen("cate_id.txt", "r"); if ($rfile) { while (!feof($rfile)) { $majorId = trim(fgets($rfile, 4096)); $majorName = CategoryNamespace::getMajorC

vb.net机房收费 & Register文本框为空提示,一键清空文本框所有内容

已经第二次机房收费系统重构了,一遍当然得有一遍的效果,正如对于文本框为空的提示方法,回顾第一遍机房,那些傻里傻气的If语句让自己对代码的亲和度大打折扣啊!那么到底有什么办法解决那些重复性的判断呢?这时候我们就要提到所谓的Model窗体了.在Model窗体中,建立一个封装数组,当窗体中需要判断大量文本框为空的时候,只需简单的调用即可. 新建一个Model类,来存放公共需要的部分. 1.定义一个结构体Term,且用结构体封装一个数组 Public Structure Term '定义结构体term

使用正则表达式配合文本搜索工具Grep以及Egrep快速搜索文本

正则表达式: 计算机科学的一个概念.正则表达式使用单个字符串来描述.匹配一系列符合某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些符合某个模式的文本. 正则表达式由两类组成: 基本正则表达式与扩展正则表达式 基本正则表达式: 字符匹配 .:匹配单个字符 []:匹配指定集合中的任意单个字符 [:digit:]:所有数字(0-9) [:lower:]:所有小写字母(a-z) [:upper:]:所有大写字母(A-Z) [:space:]:空白符 [:punct:]:特殊字

jquery限制文本框只能输入数字、JQuery 限制文本框只能输入数字和小数点

/*JQuery 限制文本框只能输入数字及小数点 */ <script> $(function(){ /*JQuery 限制文本框只能输入数字*/ $("#id").keyup(function(){ $(this).val($(this).val().replace(/\D|^0/g,'')); }).bind("paste",function(){  //CTR+V事件处理 $(this).val($(this).val().replace(/\D|

文本框获取焦点时,光标出现在文本末尾

最近遇到一个问题,点击编辑,才能修改一个文本框的内容,文本框自动获取光标,但是光标总是出现在文本框最前面,如图: 光标一直出现在 '1' 的前面,咨询了百度之后,通过 js 来实现: html 代码: <input type="text" id="test" value="123456879"> <input type="button" id="focus" value="编辑&