dkhadoop大数据处理架构详解

大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战。Hadoop作为一个开源的分布式并行处理平台,以其高拓展、高效率、高可靠等优点越来越受到欢迎。这同时也带动了hadoop商业版的发行。这里就通过大快DKhadoop为大家详细介绍一下hadoop大数据平台架构内容。
目前国内的商业发行版hadoop除了大快DKhadoop以外还有像华为云等。虽然发行方不同,但在平台架构上相似,这里就以我比较熟悉的dkhadoop来介绍。

1、大快Dkhadoop,可以说是集成了整个HADOOP生态系统的全部组件,并对其进行了深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了非常高的提升。这一点也是个人觉得dkhadoop比我之前使用的另外一个商业发行版的要好的,国内的大部分商业发行版hadoop可以说都是二次包装,dkhadoop做的好的就是敢在原生态的基础上进行开发。

2、大快DKhadoop中间件技术把大数据集群配置简化成三种节点,这样不仅简化了集群的管理运维,还增强了集群的可用性和稳定性。Dkhadoop中间件集成了apache的很多组件包含了从文件、SQL、日志、消息到爬虫和流数据以及异构数据的支持;集成了大快的压缩算法,和数据同步分发技术,实现了数据的导入和减少调动的同时实现,对于有实时数据要求的项目具有不可替代的技术优势。
3、大快DKhadoop商业发行版还是保持了开源系统的优点的,可以与开源系统100%兼容。对于那些基于开源平台开发的大数据应用并不需要经过改动同样可以在dkhadoop上高效运行。
4、DKhadoop一体化开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的二十多个类,总计一百余种方法,实现了开发效率的大幅提升。DK.HADOOP整合集成了NOSQL数据库,简化了文件系统与非关系数据库之间的编程;DK.HADOOP改进了集群同步系统,使得HADOOP的数据处理更加高效。
5、DKhadoop的SQL版本,还提供了分布式MySQL的集成,传统的信息系统,可无缝的实现面向大数据和分布式的跨越。
6、ES:快递DKhadoop的搜索系统是在开源ES系统上二次开发的,支持完成的全文搜索。整合了对中文搜索的有效支持以及对大快数据同步技术的支持后的高性能版本,DK.ES是DKH的核心组件之一,仅随DKH集成整合了对中文搜索的有效支持以及对大快数据同步技术的支持后的高性能版本,DK.ES是DKhadoop的核心组件之一。
7、汉语言处理组件:大快的汉语言处理是目前国内使用率最高的开源自然语言处理开发包。
简单的就介绍这些了吧,想要进一步了解的可以搜索查询下或者下载一下dkhadoop学习版本了解。以下是关于dkhadoop版本的问题:
DKH标准版 DKH-分布式SQL版 DK.HADOOP发行版
DKH标准版有三个不同的子版本:用于开发调试的单机版;支持三节点的学习版;支持5节点以上的标准服务器版
DKH-分布式SQL版有两个子版本:学习版、服务器版

原文地址:http://blog.51cto.com/13636660/2095711

时间: 2024-10-11 23:15:19

dkhadoop大数据处理架构详解的相关文章

大快DKhadoop大数据处理平台详解

大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可以说是大数据的一个分水岭.随着互联网技术的快速发展,大数据也随之迎来它的发展高峰期.整个大数据处理技术的核心基础hadoop.mapreduce.nosql系统,而这三个系统是建立在谷歌提出的大表.分布式文件系统和分布式计算的三大技术构架上,以此来解决海量数据处理的问题.虽然说大数据处理技术最早兴起

分享《深度学习与计算机视觉算法原理框架应用》PDF《大数据架构详解从数据获取到深度学习》PDF +数据集

下载:https://pan.baidu.com/s/12-s95JrHek82tLRk3UQO_w 更多分享资料:https://www.cnblogs.com/javapythonstudy/ <深度学习与计算机视觉 算法原理.框架应用>PDF,带书签,347页.<大数据架构详解:从数据获取到深度学习>PDF,带书签,373页.配套源代码. <深度学习与计算机视觉 算法原理.框架应用>全书共13章,分为2篇,第1篇基础知识,第2篇实例精讲.用通俗易懂的文字表达公式背

分享《深度学习与计算机视觉算法原理框架应用》《大数据架构详解从数据获取到深度学习》PDF数据集

下载:https://pan.baidu.com/s/12-s95JrHek82tLRk3UQO_w 更多资料分享:http://blog.51cto.com/3215120 <深度学习与计算机视觉 算法原理.框架应用>PDF,带书签,347页.<大数据架构详解:从数据获取到深度学习>PDF,带书签,373页.配套源代码. <深度学习与计算机视觉 算法原理.框架应用>全书共13章,分为2篇,第1篇基础知识,第2篇实例精讲.用通俗易懂的文字表达公式背后的原理,实例部分提供

大数据架构详解:从数据获取到深度学习.pdf

----------------------------- 作者:朱洁,罗华霖 著 出版社: 电子工业出版社 ISBN:9787121300004 版次:1 开本:16开 出版时间:2016-10-01 页数:372 字数:566000正 文语种:中文 ------------------------------- 链接:http://pan.baidu.com/s/1kUIqSlh 密码:fmsx

支撑5亿用户、1.5亿活跃用户的Twitter最新架构详解及相关实现

如果你对项目管理.系统架构有兴趣,请加微信订阅号"softjg",加入这个PM.架构师的大家庭 摘要:Twitter出道之初只是个奋斗在RoR上的小站点,而如今已拥有1.5亿的活跃用户,系统日传输tweet更多达4亿条,并已完成了以服务为核心的系统架构蜕变. Twitter如今在世界范围内已拥有1.5亿的活跃用户,为了给用户生成timeline(时间轴)需支撑30万QPS,其firehose每秒同样生成22MB数据.整个系统每天传输tweet 4亿条,并且只需要5分钟就可以让一条twe

高并发高流量网站架构详解

(推荐)高并发高流量网站架构详解 Web2.0的兴起,掀起了互联网新一轮的网络创业大潮.以用户为导 向的新网站建设概念,细分了网站功能和用户群,不仅成功的造就了一大批新生的网站,也极大的方便了上网的人们.但Web2.0以用户为导向的理念,使得新 生的网站有了新的特点--高并发,高流量,数据量大,逻辑复杂等,对网站建设也提出了新的要求. 本文围绕高并发高流量的网站架构设计问题,主要研究讨论了以下内容: 首先在整个网络的高度讨论了使用镜像网站,CDN内容分发网络等技术对负载均衡带来的便利及各自的优缺

领域驱动设计(Domain Driven Design)参考架构详解

转自:http://blog.csdn.net/bluishglc/article/details/6681253 领域驱动设计(Domain Driven Design)参考架构详解 摘要 本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构,该架构分成了Interfaces.Applications和Domain三层以及包含各类基础设施的Infrastructure.本文会对架构中一些重要组件和问题进行讨论,给出一些分析结论.本文原文连接:http://blog.

NopCommerce源码架构详解--初识高性能的开源商城系统cms

很多人都说通过阅读.学习大神们高质量的代码是提高自己技术能力最快的方式之一.我觉得通过阅读NopCommerce的源码,可以从中学习很多企业系统.软件开发的规范和一些新的技术.技巧,可以快速地提高我们的技术能力.所以我最近决定写一个“NopCommerce源码架构详解”的系列,来详细剖析NopCommerce的架构和原理. Nopcommerce主要用到的技术及特点: 1.Entity Framework 2.ASP.NET mvc 3.IoC容器+依赖注入(Autofac) 4.使用EF中的E

MySQL主从架构详解

1.复制概述 Mysql内建的复制功能是构建大型,高性能应用程序的基础.将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它主机(slaves)上,并重新执行一遍来实现的.复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器.主服务器将更新写入二进制日志文件,并维护文件的一个索引以跟踪日志循环.这些日志可以记录发送到从服务器的更新.当一个从服务器连接主服务器时,它通知主服务器从服务器在日志中读取的最后一次成功更新的位置.从服务器接收