背景
1.“云大开物”,四大热门信息技术
1.1 业务的发展越来越受到技术进步的影响。业务创新离不开技术创新。技术为业务服务?
2.大数据技术栈全景:
分布式编程
分布式文件系统
列数据库(HBase、Cassandra、BigTable)
柱数据库(Greenplum、BigQuery)
键值数据库(Redis、Amazon DynamoDB、Bolt)
文档数据库(MongoDB、RethinkDB)
关系数据库
新SQL数据库(HANA)
时间序列数据库
SQL引擎(Hive、PrestoDB、SparkSQL)
数据提取
服务编程
调度
机器学习
基准测试与安全
系统部署
应用程序
搜索引擎与框架
MySQL、PostgreSQL、Memcached
嵌入式数据库
商业智能
数据可视化
物联网数据
流计算引擎
数据管道
Big Data
公共数据集--(数据开放、数据云服务)
Hadoop - 大数据分布式数据存储与处理框架
Data Engineering
Streaming
设计哲学
拥抱开源、平台开放
鼓励自治、数据生态
支持创新、开发生态
数据共享与开放/数据门户/数据生态
使用ckan构建。
大数据众包、大数据运营
数据生态
数据治理 vs 数据自治(搜索引擎是典型的数据自治;自治-->生态)
机器学习
机器学习方法是计算机利用已有的数据,得出(训练)了某种模型,并利用此模型预测未来的一种方法。机器学习可完成直接编程(传统编程)无法完成的功能。
机器学习的方法:
1.回归算法
2.神经网络
3.SVM(支持向量机)
4.聚类算法
5.降维算法
6.推荐算法
监督学习算法:线性回归,逻辑回归,神经网络,SVM
无监督学习算法:聚类算法,降维算法
特殊算法:推荐算法
在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。
1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。
2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。
3.流式分析:这个主要指的是事件驱动架构。
4.查询分析:经典代表是NoSQL数据库。
机器学习的子类–深度学习
深度学习就是传统的神经网络发展到了多隐藏层的情况。神经网络在隐藏层扩大到两个以上,其训练速度就会非常慢。
人工智能:
大数据平台与IaaS/PaaS
IaaS:OpenStack Keystone(认证服务)、OpenStack Swift(对象存储)
大数据平台与IaaS层配合可以实现大数据平台的自动部署、增减节点、多租户隔离等
PaaS:基于Docker技术
大数据前端(front-end)应用的托管、弹性伸缩
Hadoop as a Service
cloudbreak
面向的用户
数据提供者
数据分析师
开发者
运维工程师
安全
keystone、ldap、oauth与社交账号、基础认证
集成问题,如ckan、owncloud有自己的用户
Api store/data store/app store
开发生态
大数据应用的托管
API商店:体现了技术复用、降低学习门槛、有利于调试
爬虫服务算不算API?
部署
使用通用部署工具
docker部署
vagrant
cloudbreak
apache Ambari
HDP部署
使用ambari部署工具,最好能够是官方源+自制源的模式。对官方源汉化、添加自制服务。
素材
chrome加入人脸识别、印刷体识别OCR、条码识别,一行代码实现上述识别。 IDAP也有人脸识别、OCR、条码识别等行业案例,包装成API服务?
大数据API服务
人脸识别
车牌识别
×××识别
OCR
二维码识别
集成
用户(租户)的统一
数据集(管道)的对接
国际化
frontend-backend(REST API)
云计算模式
运营模式存在差异,如资源管理、收费、租户管理
公有云 计费,虚拟数据中心
共享云 大申请+审批+事后算账
专享云(私有云) 小申请+审批+统计
原文地址:http://blog.51cto.com/qinzhishuma/2064075