大数据概述
在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长。以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!总体来说:大数据就是:
1、企业存在海量的数据 2、企业有对海量数据进行挖掘的需求 3、现在技术成熟,出现了对海量数据进行挖掘的一整套软件工具
大数据的特点
1.Volume(大量): 人类产生的所有印刷材料的数据量是200PB,历史上全人类总共说过的话的数量大约是5EB.当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。 2.Velocity(高速): 这是大数据区分与传统数据挖掘的最显著的特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。 3.Variety(多样性): 这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据。非结构化数据越来越多,包括网络日志,音频,视频,图片,地理位置信息等等。这些多类型的数据对数据的处理能力提出了更高要求。 4.Value(低价值密度): 价值密度的高低与数据总量的大小成反比。如何快速对有价值的数据“提纯”成为目前大数据背景下待解决的难题。
存储单位概述
bit 0/1 Byte 8bit KB 1024Byte MB 1024KB GB 1024MB TB 1024GB PB 1024TB EB 1024PB ZB 1024EB YB 1024ZB BB 1024YB NB 1024BB DB 1024NB
大数据在现实生活中的具体应用
电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐 精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放 金融大数据 精准营销:依据客户消费习惯、地理位置、消费时间进行推荐 风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈 决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制 效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度 产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品
大数据公司组织结构
平台组 集群环境搭建 集群性能监控 集群平台性能优化 数据仓库组 ETL做数据清洗 Hive数据分析和数据仓库建模 数据挖掘组 算法工程师 推荐系统工程师 用户画像工程师 报表开发组 JavaEE开发工程师
全部作品
Lucene Nutch Hadoop
Hadoop
hadoop中有3个核心组件: 分布式文件系统: HDFS 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN 帮用户调度大量的mapreduce程序,并合理分配运算资源
原文地址:https://www.cnblogs.com/zhaochengf/p/12128077.html
时间: 2024-11-09 10:05:14