数据转换服务-文本抽出技术

利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。

DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。

(1)原数据文件的语言

中国语(简体/繁体),英语,日本语及韩国语。

(2)文本抽出时可以指定以下的文字集合

★中文简体(GB2312、GB18030、GBK)

★中文繁体(Big5)

★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)

★韩文(KoreanKSC)

★西文(ISO8859-1~15)

★Unicode(UTF8、UTF16、UCS4、UCS8)

(3)原数据文件格式的种类

·Microsoft Word95/97/98/2000/2003/XP

·Microsoft Excel95/97/2000/2003/XP

·Microsoft PowerPoint95/97/2000/2003/XP

·Adobe PDF 1.2/1.3/1.4/1.5

·Adobe PageMaker 6.0/6.5

·Microsoft RTF

·Lotus 1-2-3 R5/97/98/2000

·Works 2000 WP/DB/SS

·一太郎 7/8/9/10/11/12/13

·OASYS V3/V4/V5/V6/V7/V8 OA2

·ClarisWorks 4.0

·AppleWorks 6

·WordPerfect Office 2000(仅限于WordPerfect 8/9 )

·Corel Presentations 9(Slide show 7/8/9)

·QuarkXPress 3.3/4

·AutoCAD R13/LT95/ R14/LT97 DXF

·AutoCAD 2000/2002

·DocuWorks Ver.4/5

·HTML

·XML

(4)文本抽出时可以指定以下的功能

★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。

★从指定的文件中,将文件的属性信息进行抽出。

★从指定的文件中,抽出指定页中的文本数据。

★从设定了安全保护的PDF文件中抽出文本数据。

数据转换服务-文本抽出技术

时间: 2025-01-14 01:01:05

数据转换服务-文本抽出技术的相关文章

数据转换服务-PDF转换技术

利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务.根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式.本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理.为用户提供质量优良的技术服务. PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式.这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式.越来越多的电子图书.产品说明.公司文告

数据转换服务

一.概要 北京红樱枫软件有限公司是一家日本企业在中国投资设立的独资软件开发公司.是目前国内数据文件格式转换领域的领先提供商.主要开发各种数据文件格式转换器.多媒体浏览器.纯文本抽出通用程序库.PDF文件生成程序库.PDF文件读取程序库.PDF文件转换器.HTML文件转换程序库等软件产品.另外我公司在XML技术领域方面也做了大量的研发工作.经过几年的努力,同日本总公司共同成功的开发了XML编辑器.XMLParser以及XSL Formatter等产品,在对XML和XSL规范的实现上是目前世界上最好

数据抽取——纯文本抽出程序库DMCTextFilter

数据抽取工具 纯文本抽出程序库DMCTextFilter DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览. 一.应用案例 在实际的推广和应用中,红樱枫的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图

纯文本抽出程序库DMC TEXT FILTER

因需而生,红樱枫为文本转换市场领航 --纯文本抽出程序库DMC TEXT FILTER,从需求中把握平衡 在高度数字化的今天,数字图书馆已经成为很多人查询资料的有效途径.然而即使在畅通的宽带搜寻中一样会出现堵塞,可恨的是这种堵塞可能并不是网络造成的,而是出于个人电脑的软件配置.就读国际关系学院的研究生韩小姐颇有感触:"在查找资料时,面对繁多的数据格式,由于手头的工具太少,大量的文件无法打开,只好望而兴叹."据了解,有韩小姐这种想法的用户不在少数. 广泛需求,催熟应用市场 对症下药,红樱

数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种

数据格式转换(二)纯文本抽出

DMCTextFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览. 本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合

数据抽取工具——DMCTextFilter(纯文本抽出通用程序库)

DMC文本抽出支持office.pdf.邮件.压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件.压缩文件中的压缩文件.嵌入文件中的文件的文本提取. DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文

纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出,通过该程序库,用户可以轻松获得各种格式文档的文字信息,方便检索和处理.功能:(1)文件自动识别:可识别源生成文件和其版本,文件的识别不是根据文件的扩展名,而是根据文件内部信息进行识别.(2)文本抽出:从指定的文件或嵌在文件中的OLE对象中抽出文本数据.(3)属性抽出:从指定文件中,将文件属性抽出到属性结构体中.(4)页面抽出:从指定文件中,抽出指定页中的文本数据.(5)加密PDF文件抽出:从设定了安全包保护的PDF中抽出文本数据.特点:方

优秀的文本抽出工具-TextPorte

大数据时代的最佳选择 TextPorter纯文本抽出软件 北京博信施科技有限公司是一家专业从事数据格式转换.数据处理领域研发软件产品和解决方案实施的技术型公司.随着大数据时代的到来,数据的处理.加工.生产.流通.管理成为了人们必不可少的一部分.TextPorter纯文本抽出软件可以从多种文件格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.广泛应用于全文检索.搜索引擎.文档管理等技术领域,百度.搜狐.拓尔思.Openfind等知名企业将本软件应用在文本检索系统.搜