优秀的文本抽出工具-TextPorte

大数据时代的最佳选择

TextPorter纯文本抽出软件

北京博信施科技有限公司是一家专业从事数据格式转换、数据处理领域研发软件产品和解决方案实施的技术型公司。随着大数据时代的到来,数据的处理、加工、生产、流通、管理成为了人们必不可少的一部分。TextPorter纯文本抽出软件可以从多种文件格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。广泛应用于全文检索、搜索引擎、文档管理等技术领域,百度、搜狐、拓尔思、Openfind等知名企业将本软件应用在文本检索系统、搜索引擎等领域,取得了良好的社会效益和经济效益。

功能特性:

2 支持多种文件格式中文本数据抽出

支持Microsoft Office Word、Excel、PowerPoint、Adobe PDF、AutoCAD、HTML、MSG、一太郎、韩文文杰等数十种文件格式。

2 支持多种操作系统环境、支持服务器并发操作

软件可以运行在Windows 32/64、Linux 32/64、Solaris 32/64操作系统环境下,支持单线程或多线程操作,实现了多人共用机制。

2 支持多国语言文件格式中文本数据抽出

支持中文简体、中文繁体、英语、日语及韩语等多国语言文件格式中文本数据抽出。

2 支持多种语言文字字符集合

在抽出文本数据输出文本文件时,可以指定GBK、GB18030、Big5、Shift_JIS、KS X 1001、UTF-16、UTF-8等多种字符集合作为文本文件的文字字符集。

2 提供功能强大的API接口函数

提供C/C++、Java、.Net程序语言的API接口函数,客户可以将本软件集成到自己的应用程序中,通过调用API接口函数,实现从多种文件格式中抽出文本数据的功能。

典型客户:

百度、搜狐、拓尔思、Openfind等知名企业将本软件应用在文本检索系统、搜索引擎、文档管理等领域。

欢迎垂询!

北京博信施科技有限公司

邮箱:[email protected]

电话:010-56820016

地址:北京市昌平区立汤路188号北方明珠3号楼1221室

原文地址:http://blog.51cto.com/13585097/2065035

时间: 2024-08-27 08:01:50

优秀的文本抽出工具-TextPorte的相关文章

grep文本搜索工具与正则表达式

一.文本搜索工具grep (一)grep简介 Linux上常用的三个文本处理工具被人们称为Linux文本处理三剑客,他们分别是: 1.grep(egrep,fgrep):文本搜索工具,基于"pattern"对给定的文本进行搜索操作. 2.sed:stream editor,流编辑器,行编辑工具,文本编辑工具. 3.awk:GNU awk,文本格式化工具,文本报告生成器. 他们都是很优秀的文本处理工具.现在,我就重点介绍下grep. grep:global search regular

数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种

数据抽取工具——DMCTextFilter(纯文本抽出通用程序库)

DMC文本抽出支持office.pdf.邮件.压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件.压缩文件中的压缩文件.嵌入文件中的文件的文本提取. DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文

数据抽取——纯文本抽出程序库DMCTextFilter

数据抽取工具 纯文本抽出程序库DMCTextFilter DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览. 一.应用案例 在实际的推广和应用中,红樱枫的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图

数据格式转换(二)纯文本抽出

DMCTextFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览. 本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合

关于 文本处理工具、正则表达式、grep 的简单举例

文本处理工具 抽取文本的工具 文件内容:less和cat 文件截取:head和tail 按列抽取:cut 按关键字抽取:grep 文件查看命令:cat,tac,rev cat [选项] [file] cat -n     对显示出的每一行进行编号 cat -b     非空行编号 cat -ns    连续压缩空行成一行 cat -v     显示回车符 cat -E     显示行结束符$ cat -A     显示所有控制符 tac file   反向显示内容 rev file   反向显示

纯文本抽出程序库DMC TEXT FILTER

因需而生,红樱枫为文本转换市场领航 --纯文本抽出程序库DMC TEXT FILTER,从需求中把握平衡 在高度数字化的今天,数字图书馆已经成为很多人查询资料的有效途径.然而即使在畅通的宽带搜寻中一样会出现堵塞,可恨的是这种堵塞可能并不是网络造成的,而是出于个人电脑的软件配置.就读国际关系学院的研究生韩小姐颇有感触:"在查找资料时,面对繁多的数据格式,由于手头的工具太少,大量的文件无法打开,只好望而兴叹."据了解,有韩小姐这种想法的用户不在少数. 广泛需求,催熟应用市场 对症下药,红樱

DB 查询分析器 6.03 ,遨游于任何Windows操作系统之上的最优秀的数据库客户端工具

DB 查询分析器 6.03 ,遨游于任何Windows操作系统之上的最优秀的数据库客户端工具 中国本土程序员马根峰(CSDN专访马根峰:海量数据处理与分析大师的中国本土程序员  http://www.csdn.net/article/2014-08-09/2821124 )推出的个人作品----万能数据库查询分析器,中文版本<DB 查询分析器>.英文版本<DB Query Analyzer>.它具有强大的功能.友好的操作界面.良好的操作性.跨越各种数据库平台乃至于EXCEL和文本文

egrep及文本处理工具

egrep: 能够实现文本处理的三剑客: 文本过滤工具:grep (其实grep家族中有三个工具,也就是实现文本过滤的工具有三个,grep,                                       egrep,fgrep) 文本编辑工具:sed 文本报告生成器(格式化文本):awk 其实文本过滤工具除了grep之外还有egrep,fgrep grep:基本正则表达式: -E:选项表示支持扩展正则表达式: -F:选项表示支持fgrep正则表达式: egrep:扩展正则表达式: