纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

该程序库可以从数十种数据文件格式中，将纯文本数据进行抽出，通过该程序库，用户可以轻松获得各种格式文档的文字信息，方便检索和处理。
功能：
（1）文件自动识别：可识别源生成文件和其版本，文件的识别不是根据文件的扩展名，而是根据文件内部信息进行识别。
（2）文本抽出：从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
（3）属性抽出：从指定文件中，将文件属性抽出到属性结构体中。
（4）页面抽出：从指定文件中，抽出指定页中的文本数据。
（5）加密PDF文件抽出：从设定了安全包保护的PDF中抽出文本数据。
特点：方便、实用、快捷、及时、准确、完整的找到您想要的信息。
（1）模块化程序设计：采用灵活、合理的模块化程序设计与结构，可以高速化进行文本抽出，对新的文件格式迅速作出模块对应。具备多语言处理的程序模块，且各模块具有可移植性。
（2）支持多平台操作：
windows版（暂无WIN7）、sun sparc版solaris2.5以上、 linux（glibc2.1以上）、IBM IX 5L
version5.1、powerPC MacOS
X
（3）支持多语言：中文（简/繁），英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合，生成标准html文档，适用于各种浏览器。
（4）支持多线程技术：支持server端多道并发操作，方便用户嵌入各种应用系统。
（5）支持数十种数据文件格式：ms
office系列、microsoft rtf、adobo
pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列（eml，msg）、压缩文件系列（zip，rar，lzh，tar，gzip）
、html、xml等数十种数据文件格式。
（6）提供多种形式的API函数接口：C++/C、COMM、perl的API函数接口。
应用领域：
图书馆（各大图书论坛）、Internet搜索引擎、mail检索系统等大型应用系统中。

了解更多请回复交流

时间： 2024-09-30 01:59:41

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！的相关文章

数据抽取工具——DMCTextFilter V4.2（纯文本抽出通用程序库）

数据抽取工具——DMCTextFilter（纯文本抽出通用程序库）

自然场景文本识别：基于笔画宽度变换的文本检测

文本编辑器通用快捷键

php从文本读入数据，处理结果再导入到文本

vb.net机房收费 & Register文本框为空提示，一键清空文本框所有内容

使用正则表达式配合文本搜索工具Grep以及Egrep快速搜索文本

jquery限制文本框只能输入数字、JQuery 限制文本框只能输入数字和小数点

文本框获取焦点时，光标出现在文本末尾

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁！

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁！的相关文章

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！

纯文本抽出通用程序库让您不再为文本抽出和处理发愁！的相关文章