数据抽取——纯文本抽出程序库DMCTextFilter

数据抽取工具

纯文本抽出程序库DMCTextFilter

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

一、应用案例

在实际的推广和应用中,红樱枫的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在***能和质量上都得到了用户高度评价。

客户典型应用案例

● 拦截邮件后的内容信息抽取过滤

● 搜索引擎的数据前期格式统一

● 分词信息挖掘系统的数据转换

● 网络数据的过滤

● 舆情系统的信息挖掘

● 企业邮件系统监控

客户案例一:

提到数据格式转换软件,我们从WEB搜索的应用上足可窥其广阔的需求态势。全球最大的搜索网站百度,就采用了高效数据转换技术。以提高搜索引擎的搜索质量和易用***为主要目标,百度将纯文本抽出程序库应用于搜索引擎,进行二次开发和应用,为用户提供了一个既易于操作、又能准确查询的搜索技术平台。文本抽出程序在INTERNET中的二次应用,使搜索网站在专业化进程中更进一步。

客户案例二:

类似WEB搜索引擎,在邮件处理中一样需要纯文抽出程序库来帮忙。为使商业邮件的管理更为有序高效,用户需要找到一个简单快捷的途径,来对邮件进行检索规整。这就相当于要在电脑上建立一个“透视眼”,对目标***信息进行查询。只要键入目标信息,就可以在不打开附件的情况下,找到搜索目标,可获知信件的主要信息,这样既能提高效率又能保证网络安全。

二、产品特点

本产品采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属***抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品***能和质量上都得到了用户高度的好评。

数据抽取——纯文本抽出程序库DMCTextFilter,布布扣,bubuko.com

时间: 2024-08-05 06:48:24

数据抽取——纯文本抽出程序库DMCTextFilter的相关文章

纯文本抽出程序库DMC TEXT FILTER

因需而生,红樱枫为文本转换市场领航 --纯文本抽出程序库DMC TEXT FILTER,从需求中把握平衡 在高度数字化的今天,数字图书馆已经成为很多人查询资料的有效途径.然而即使在畅通的宽带搜寻中一样会出现堵塞,可恨的是这种堵塞可能并不是网络造成的,而是出于个人电脑的软件配置.就读国际关系学院的研究生韩小姐颇有感触:"在查找资料时,面对繁多的数据格式,由于手头的工具太少,大量的文件无法打开,只好望而兴叹."据了解,有韩小姐这种想法的用户不在少数. 广泛需求,催熟应用市场 对症下药,红樱

数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种

数据抽取工具——DMCTextFilter(纯文本抽出通用程序库)

DMC文本抽出支持office.pdf.邮件.压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件.压缩文件中的压缩文件.嵌入文件中的文件的文本提取. DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文

数据格式转换(二)纯文本抽出

DMCTextFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览. 本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出,通过该程序库,用户可以轻松获得各种格式文档的文字信息,方便检索和处理.功能:(1)文件自动识别:可识别源生成文件和其版本,文件的识别不是根据文件的扩展名,而是根据文件内部信息进行识别.(2)文本抽出:从指定的文件或嵌在文件中的OLE对象中抽出文本数据.(3)属性抽出:从指定文件中,将文件属性抽出到属性结构体中.(4)页面抽出:从指定文件中,抽出指定页中的文本数据.(5)加密PDF文件抽出:从设定了安全包保护的PDF中抽出文本数据.特点:方

数据抽取工具

DMC文本抽出支持office.pdf.邮件.压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件.压缩文件中的压缩文件.嵌入文件中的文件的文本提取. DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文

数据转换服务-文本抽出技术

利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务.根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式.本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理.为用户提供质量优良的技术服务. DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台.多线程.多语言的通用文本抽出程序库.利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出. (1)原数据文件的语言 中国语(简体/繁体),英语,日本语及韩国语.

优秀的文本抽出工具-TextPorte

大数据时代的最佳选择 TextPorter纯文本抽出软件 北京博信施科技有限公司是一家专业从事数据格式转换.数据处理领域研发软件产品和解决方案实施的技术型公司.随着大数据时代的到来,数据的处理.加工.生产.流通.管理成为了人们必不可少的一部分.TextPorter纯文本抽出软件可以从多种文件格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.广泛应用于全文检索.搜索引擎.文档管理等技术领域,百度.搜狐.拓尔思.Openfind等知名企业将本软件应用在文本检索系统.搜

利用htmlparser提取网页纯文本的例子

import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; importorg.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.TableTag; import org.htmlparser.util.NodeList; /** * 标题:利用htmlparser提取网页纯文本的例子 */ publi