大数据平台规划

背景

1.“云大开物”,四大热门信息技术

1.1 业务的发展越来越受到技术进步的影响。业务创新离不开技术创新。技术为业务服务?

2.大数据技术栈全景:

分布式编程

分布式文件系统

列数据库(HBase、Cassandra、BigTable)

柱数据库(Greenplum、BigQuery)

键值数据库(Redis、Amazon DynamoDB、Bolt)

文档数据库(MongoDB、RethinkDB)

关系数据库

新SQL数据库(HANA)

时间序列数据库

SQL引擎(Hive、PrestoDB、SparkSQL)

数据提取

服务编程

调度

机器学习

基准测试与安全

系统部署

应用程序

搜索引擎与框架

MySQL、PostgreSQL、Memcached

嵌入式数据库

商业智能

数据可视化

物联网数据

流计算引擎

数据管道

Big Data

公共数据集--(数据开放、数据云服务)

Hadoop - 大数据分布式数据存储与处理框架

Data Engineering

Streaming

设计哲学

拥抱开源、平台开放

鼓励自治、数据生态

支持创新、开发生态

数据共享与开放/数据门户/数据生态

使用ckan构建。

大数据众包、大数据运营

数据生态

数据治理 vs 数据自治(搜索引擎是典型的数据自治;自治-->生态)

机器学习

机器学习方法是计算机利用已有的数据,得出(训练)了某种模型,并利用此模型预测未来的一种方法。机器学习可完成直接编程(传统编程)无法完成的功能。

机器学习的方法:

1.回归算法

2.神经网络

3.SVM(支持向量机)

4.聚类算法

5.降维算法

6.推荐算法

监督学习算法:线性回归,逻辑回归,神经网络,SVM

无监督学习算法:聚类算法,降维算法

特殊算法:推荐算法

在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。

1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。

2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。

3.流式分析:这个主要指的是事件驱动架构。

4.查询分析:经典代表是NoSQL数据库。

机器学习的子类–深度学习

深度学习就是传统的神经网络发展到了多隐藏层的情况。神经网络在隐藏层扩大到两个以上,其训练速度就会非常慢。

人工智能:

大数据平台与IaaS/PaaS

IaaS:OpenStack Keystone(认证服务)、OpenStack Swift(对象存储)

大数据平台与IaaS层配合可以实现大数据平台的自动部署、增减节点、多租户隔离等

PaaS:基于Docker技术

大数据前端(front-end)应用的托管、弹性伸缩

Hadoop as a Service

cloudbreak

面向的用户

数据提供者

数据分析师

开发者

运维工程师

安全

keystone、ldap、oauth与社交账号、基础认证

集成问题,如ckan、owncloud有自己的用户

Api store/data store/app store

开发生态

大数据应用的托管

API商店:体现了技术复用、降低学习门槛、有利于调试

爬虫服务算不算API?

部署

使用通用部署工具

docker部署

vagrant

cloudbreak

apache Ambari

HDP部署

使用ambari部署工具,最好能够是官方源+自制源的模式。对官方源汉化、添加自制服务。

素材

chrome加入人脸识别、印刷体识别OCR、条码识别,一行代码实现上述识别。 IDAP也有人脸识别、OCR、条码识别等行业案例,包装成API服务?

大数据API服务

人脸识别

车牌识别

×××识别

OCR

二维码识别

集成

用户(租户)的统一

数据集(管道)的对接

国际化

frontend-backend(REST API)

云计算模式

运营模式存在差异,如资源管理、收费、租户管理

公有云 计费,虚拟数据中心

共享云 大申请+审批+事后算账

专享云(私有云) 小申请+审批+统计

原文地址:http://blog.51cto.com/qinzhishuma/2064075

时间: 2024-10-08 13:25:13

大数据平台规划的相关文章

美团大数据平台架构实践

今天给大家介绍的内容主要包括以下四个部分首先是介绍一下美团大数据平台的架构,然后回顾一下历史,看整个平台演进的时间演进线,每一步是怎么做的,以及一些挑战和应对策略,最后总结一下,聊一聊我对平台化的看法. 谢语宸是来自美团的大数据构建平台的架构师.他在QCon2016北京站分享了一些整体上构建大数据平台的方法,除了聚焦在某一个点上的还有构建整体的大数据,以及各种各样技术的应用,希望能给大家一些关于大数据方面的启迪.   非常感谢给我这个机会给大家带来这个演讲,我是2011年加入美团,最开始负责统计

剖析大数据平台的数据采集

我在一次社区活动中做过一次分享,演讲题目为<大数据平台架构技术选型与场景运用>.在演讲中,我主要分析了大数据平台架构的生态环境,并主要以数据源.数据采集.数据存储与数据处理四个方面展开分析与讲解,并结合具体的技术选型与需求场景,给出了我个人对大数据平台的理解.本文讲解数据采集部分. 数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了. 在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract).转换(Tr

Cloudera Manager大数据平台搭建

在企业里快速搭建大数据平台除了Ambria外还可以用Cloudera Manager,这两种工具相对于纯手工搭建确实便捷很多,但是有利也有弊,相对于新手来说就不便于掌握内部原理,不好排错等,而纯手工搭建,出错较多,不容易成功. 一. 规划:192.168.3.201 server/agent mysql 192.168.3.202 agent namenode 192.168.3.203 agent namenode(备) resourcemanager192.168.3.204 agent r

七牛云宫静:基于容器和大数据平台的持续交付平台

7 月 6 日上午,在 ArchSummit 2018 深圳站 | 全球架构师峰会上,七牛云工程效率部技术专家宫静分享了<基于容器和大数据平台的持续交付平台>为题的演讲.本文是对演讲内容的整理.? ? 本次分享的主要内容是基于容器和大数据平台去构建的持续交付系统,是七牛云工程效率部在持续交付.容器化方面去做的技术实践.将从以下两个方向展开:一个是容器化方向,一个是持续交付的平台.主要会结合在七牛云的实践来介绍这个持续集成.持续部署在容器化方向的探索和思考,以及未来方向的考虑.? 01 业务场景

首次公开!单日600PB的计算力--阿里巴巴EB级大数据平台的进击

摘要: 每年的双11之前,也是MaxCompute各种乾坤大挪移落定的时候,因为双11就是各种大折腾项目的自然deadline.在今年双11之前,一路向北迁移和在离线混部项目,将杭州集群除蚂蚁外整体迁移到张北,涉及了绝大部分的业务project.数据存储和计算任务,为今年双十一大数据计算服务的保障带来了挑战. 作者:阿里巴巴计算平台 高级技术专家 迎辉 MaxCompute作为阿里巴巴的主力计算平台,在2018年的双11中,再次不负众望,经受住了双11期间海量数据和高并发量的考验.为集团的各条业

大数据知识点分享:大数据平台应用 17 个知识点汇总

一.大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto.Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景. Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库Hive,可以作为大数据平台的标准数据仓库, 对于面向应用的MPP数据库,可以选择MYCAT(mySql的

(转)我所经历的大数据平台发展史(四):互联网时代 ? 下篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第四篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统行业与非传统行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 在互联网时代被弱化的数据模型 谈起数据模型就不得不提传统数据平台架构发展,我相信很多朋友都晓得传统数据平台的知识,其架构演进简单一句话说“基本上可以分为五个时代.四种架构”,但是到了互联网时代因为大数据快速膨胀与数据源类型多样化特点,从高阶架构上

用Vue构建一个github“可视化大数据平台”-GitDataV,设计开发分享

写在前面 GitDataV,是一个github“大数据可视化平台”,通过它你可以更直观的看到你在github里的一些数据,(之所以打双引号,是因为我觉得这个还没到大数据可视化的程度).其实我在 上篇文章 分享的时候已经提到了这个想法,通过github提供的接口,做一个自己的“大数据分析页面”,所以我就花了几天晚上的时间,把这想法从设计到开发构建出来了,那么下面我就我个人的账号测试看看效果如下gif图 如果您感兴趣可以点击这里访问简单的:GitDataV网站(目前打包后有些小bug,但不影响正常使

我所经历的大数据平台发展史(一):非互联网时代 ? 上篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目 & 平台规划架构,在这里不做更深入描述. 我是从 2000 年开始接触数据仓库,大约 08 年开始进入互联网行业,那时在互联网接触到数据平台