大数据处理

DMCTextFilter和HTMLFilter数据过滤器

我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度, DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,快速抽出纯文本数据信息和转换成HTML文件。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

一、产品特点

1.   多格式数据处理,可以对近百种文件格式进行文本抽取

支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式的文字抽取和HTML转换。

2.   对文件的操作不需要安装其他任何第三方软件

文件操作在数据转换过程中完全独立对文件格式进行分析转换,不需要安装生成文件的原软件。特别是不依赖于原软件的各种文档的Image化、PDF化技术,在网络服务器中的应用非常广泛。这是一项世界上比较流行、且需求量很大的技术。

3.   支持多种操作系统环境、支持服务器并发操作

支持各种操作系统,如:Windows的32位和64位各种版本以及Sun SPARC版Solaris(32bit/64bit)、x86版Solaris10(64bit)、Linux32bit、Linux64bit、IBM AIX 5L、Macintosh等,并支持单线程或多线程操作,实现了多人共用机制。

4.   无与伦比的运行速度

程序全部用C/C++语言开发,执行速度无与伦比,即使是单线程运行,平均每秒钟处理9个文件,当50个线程时,每秒钟16个文件,随着线程数的增加以及机器***能的提高。是目前世界上处理文档效率最高的软件。

5.   多种语言文字代码的支持

抽出文本时,可以指定以下的字符集合作为文本文件的字符集:GBK、GB18030、Big5、Shift_JIS、WINDOWS31J、EUC-JP、EUC-JP-FIX、ISO-2022-JP、KS X 1001、ISO-8859-1、ISO-10646-UCS-2、ISO-10646-UCS-4、UTF-16、UTF-8、Shift_JIS-2004、ISO-2022-JP-2004、EUC-JIS-2004

6.   C/C++、JAVA、.NET等功能强大的接口功能

程序库除提供C/C++函数接口外,还提供了com接口、java接口、perl接口等各种调用方法。函数功能上有:文件格式识别函数、文本抽出函数(文件)、文本抽出函数(流Stream输出)、文件属***抽出函数、页抽出函数、页抽出函数(流Stream输出)、设定User Password的PDF文件的文本抽出函数、设定User Password的PDF文件的页抽出函数、设定User Password的PDF文件属***的抽出函数等。

二 、广泛的应用领域

软件程序库广泛的应用于政府、企业等各个领域的信息资源开发利用、智能搜索引擎、情报分析和服务、信息安全、企业知识门户、数字图书馆、电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在***能和质量上都得到了用户高度评价。

■应用举例一: 某公司 中文文本挖掘软件产品

此公司的文本挖掘软件是国内外首推的实用化中文文本挖掘产品,它突破了文本处理机械匹配的基本模式,实现了智能化的信息处理,可有效解决目前普遍存在的信息过量、信息丢失、信息无关等问题。它集成了此公司最新推出的多项中文智能处理技术,为中文文本挖掘应用提供开放的开发工具箱。在红樱枫软件的通用文本抽出程序库的基础上,此软件的下述功能得以实现。

文本挖掘软件由四个逻辑模块组成,即:文本分类、文本摘要、文本聚类和相似***检索模块。文本分类工具可自动地对文档进行分类,赋予文档一个预先定义的类别主题词,实现文档的自动组织,而无需人工干预。文本摘要可以提取文本主题,自动生成文本摘要,为用户快速浏览信息提供快捷有效的方式。文本聚类工具可以自动对文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词。相似***检索工具可以帮助用户检索与给定文档相似的文档,可以应用于文档查重等诸多工作领域。

■应用举例二:某公司数字图书馆解决方案

数字图书馆的本质就是以分布式海量数据库群为支撑的信息服务系统,图书馆内拥有大量的期刊、杂志和图书、图片等馆藏资源信息。因此,对数据的解析能力也是图书馆系统的一个重要衡量标志。应用了红樱枫软件文本抽出程序库软件的此公司图书馆管理系统实现了对海量数据信息的存储与检索,完成了数字信息资源的生产、加工、存储、检索、传递、保护、利用、归档、剔除等全过程。此图书馆解决方案所提供强大功能组件,建立起包括数字化进行资源建设与收集,数字资源的存储和管理,全文搜索引擎,分布式框架机制和安全信任机制等功能数字图书馆系统体系。利用iBASE DMC数据管理中心提供的方便快捷的建库功能,用户的图书馆建立起自己特色专业数据库,同时还利用iBASE DMC完成对原有的书目数据库、文摘数据库、全文数据库以及光盘数据倒入iBASE数据库中,统一了数据格式,为资源共享和数据交换奠定基础。

三.产品价值

在实际的推广和应用中,我公司的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。在世界各地得到了众多知名企业的青睐。本产品在***能和质量上都得到了用户高度评价。我司将不懈努力,继续为用户提供品质优良,***能可靠的一流产品。为用户提供优良的技术服务,满足用户的各种需求。

目前主要突出体现出如下应用价值:

1.  为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;

2.  可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。

3.  在国家相关部门的搜索引擎以及多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以为提高垂直搜索引擎服务的智能化、行业化和知识化水平奠定了基础。

4.  为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。

5.  可以作为信息资源利用和知识管理应用的基础构件,为企业信息资源的加工、分析和服务提供先进智能的文本转换技术。

大数据处理

时间: 2024-07-28 16:20:14

大数据处理的相关文章

企业级大数据处理方案-02.环境决定需求、性能决定选型

上讲,讲述了大概九种的技术种类以及他们的领域.那么既然有吃饭的,那就必须有做饭的.因此大数据技术结构的选型,必须有的组成部分至少三种(来源.计算.存储) 最简单的数据处理架构: 最少单元的数据处理方案,当然这个不是最好的,为什么呢,问题: 1.流式处理数据(Streaming)时,数据量小时,数据存储到HDFS中,20M或者100K,这种情况是有的.这种计算结果的存储极大浪费了存储空间.HDFS不适用于大批量小文件的存储,(只是不适用,不是不能) 2.数据量大时,数据处理不过来(receiver

挨踢部落坐诊第三期:Python在大数据处理上的优势分析

挨踢部落是为核心开发者提供深度技术交流,解决开发需求,资源共享的服务社群.基于此社群,我们邀请了业界技术大咖对开发需求进行一对一突破,解除开发过程中的绊脚石.以最专业.最高效的答复为开发者解决开发难题. Python 话题关键词:数据库 Android 部落阵容:侯圣文,恩墨学院联合创始人: 面向对象:移动开发者.IT运维.数据分析师 参与方式:加入51CTO开发者QQ交流群370892523,有任何技术问题,在群里提问,或发给群主小官. 活动详情: 问:郑州-白杨-Web:现在还有业务在使用S

大数据处理方面的 7 个开源搜索引擎

大数据处理方面的 7 个开源搜索引擎 大数据是一个包括一切的术语,指的是数据集很大很复杂,他们需要特别设计的硬件和软件工具.数据集通常是 T 或者更大级别.这些数据集从各种各样的来源创建,包括传感器,收集气象信息,公开可用的信息,如杂志.报纸.文章.还包括购买交易记录.网络日志.医疗记 录.军事侦察.视频和图像档案和大规模的电子商务等等. 要分析这些数据需要专门的软硬件,本文介绍 7 个开源的搜索引擎适合用于大数据处理: 1. Apache Lucene Lucene 是apache软件基金会一

翻译-In-Stream Big Data Processing 流式大数据处理

相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twitter Storm,Yahoo S4,Cloudera Impala,Apache Spark和Apache Tez纷纷加入大数据和NoSQL阵营.本文尝试探讨流式处理系统用到的技术,分析它们与大规模批量处理和OLTP/OLAP数据库的关系,并探索一个统一的查询引擎如何才能同时支持流式.批量和OLAP处理. 在Grid Dy

关于举办大数据处理技术培训的通知

各有关单位: 中国科学院计算技术研究所是国家专门的计算技术研究机构,同时也是中国信息化建设的重要支撑单位,中科院计算所培训中心是致力于高端IT类人才培养及企业内训的专业培训机构.中心凭借科学院的强大师资力量,在总结多年大型软件开发和组织经验的基础上,自主研发出一整套课程体系,其目的是希望能够切实帮助中国软件企业培养高级软件技术人才,提升整体研发能力,迄今为止已先后为国家培养了数万名计算机专业人员,并先后为数千家大型国内外企业进行过专门的定制培训服务. 随着互联网.移动互联网和物联网的发展,我们已

位图与布隆及大数据处理题型分析

1.位图 由题引入: [腾讯]:2.给40亿个不重复的无符号整数,没排过序.给一个无符号整数,如何快速判断一个数是否在这40亿个数中. 如果将40亿个数按整型放入内存,显然不科学,就算内存足够,这样做也是浪费空间. 解决思路:用一个比特位表示一个数,存在的话该位上就置为1,不在的话置为0:这样40亿个数需要40亿个比特位,换算一下也就是500M,相对于16G来说,大大节省了空间. 注意:位图只适合判断,查找数据是否存在,且只能对整数进行处理. 代码如下: 1 class BitMap 2 { 3

大数据处理分析的六大最好工具

来自传感器.购买交易记录.网络日志等的大量数据,通常是万亿或EB的大小,如此庞大的数据,寻找一个合适处理工具非常必要,今天我们为大家分享在大数据处理分析过程中六大最好用的工具. [编者按]我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向.本文转载自中国大数据网. CSDN推荐:欢迎免费订阅<Hadoop与大数据周刊>获取

企业如何快速搭建大数据处理系统

随着互联网+时代的来临,互联网已经从InformationTechnology (IT)时代过度到Data Technology (DT)时代,数据量也以几何量级递增,数据整体呈现出5V特征,大体量(Volume).多样性(Variety).时效性(Velocity).准确性(Veracity),大价值(Value).大体量体现为数据量可以从TB到PB,甚至到EB规模,google资料显示,其每天搜索提供的数量达到30PB(1P=1024TB), 这些数据如果打印出来将超过5千万亿张A4纸,但是

学Python大数据处理用Anaconda

anaconda内部集成ipython.scipy和numpy基本都齐了,很好用! 下载地址  http://pan.baidu.com/s/1o6OEPIi python大数据处理模块pandas由scipy和numpy组成,这核心模块都在anaconda里预装了

【消息】Pivotal Pivots 开源大数据处理的核心组件

Pivotal Pivots 开源大数据处理的核心组件 Pivotal 今天宣布将其大数据套件的三个核心组件开源,同时商业版本继续提供更高级特性和商业支持服务. 这三个开源的组件分别是: GemFire 内存中 NoSQL 数据库 HAWQ 大规模并行 SQL 分析处理引擎 Greenplum DB 大规模并行处理分析数据库 Pivotal 开源这三个核心组件最主要的原因是其成功的 Cloud Foundry 开源案例. 来自 Pivotal 数据产品组的经理和副总裁称:在 Cloud Foun