01 大数据

大数据概述

在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长。以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!总体来说:大数据就是:
1、企业存在海量的数据
2、企业有对海量数据进行挖掘的需求
3、现在技术成熟,出现了对海量数据进行挖掘的一整套软件工具

大数据的特点

1.Volume(大量):
  人类产生的所有印刷材料的数据量是200PB,历史上全人类总共说过的话的数量大约是5EB.当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
2.Velocity(高速):
   这是大数据区分与传统数据挖掘的最显著的特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
3.Variety(多样性):
   这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据。非结构化数据越来越多,包括网络日志,音频,视频,图片,地理位置信息等等。这些多类型的数据对数据的处理能力提出了更高要求。
4.Value(低价值密度):
    价值密度的高低与数据总量的大小成反比。如何快速对有价值的数据“提纯”成为目前大数据背景下待解决的难题。

存储单位概述

bit     0/1
Byte    8bit
KB      1024Byte
MB      1024KB
GB      1024MB
TB      1024GB
PB      1024TB
EB      1024PB
ZB      1024EB
YB      1024ZB
BB      1024YB
NB      1024BB
DB      1024NB 

大数据在现实生活中的具体应用

电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐

精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放

金融大数据
精准营销:依据客户消费习惯、地理位置、消费时间进行推荐
风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈
决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制
效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度
产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品

大数据公司组织结构

平台组
集群环境搭建
集群性能监控
集群平台性能优化

数据仓库组
ETL做数据清洗
Hive数据分析和数据仓库建模

数据挖掘组
算法工程师
推荐系统工程师
用户画像工程师

报表开发组
JavaEE开发工程师

全部作品

Lucene
Nutch
Hadoop

Hadoop

hadoop中有3个核心组件:
分布式文件系统:   HDFS      实现将文件分布式存储在很多的服务器上
分布式运算编程框架:MAPREDUCE 实现在很多机器上分布式并行运算
分布式资源调度平台:YARN      帮用户调度大量的mapreduce程序,并合理分配运算资源

原文地址:https://www.cnblogs.com/zhaochengf/p/12128077.html

时间: 2024-11-09 10:05:14

01 大数据的相关文章

大数据高并发系统架构实战方案视频教程

课程下载地址:http://pan.baidu.com/s/1dEyJiWL 密码:8bzy 随着互联网的发展,高并发.大数据量的网站要求越来越高.而这些高要求都是基础的技术和细节组合而成的.本课程就从实际案例出发给大家原景重现高并发架构常用技术点及详细演练.通过该课程的学习,普通的技术人员就可以快速搭建起千万级的高并发大数据网站平台. 01.大数据高并发架构实战案例分享-概述 02.Piranha安装快速搭建LVS负载均衡集群 03.LVS负载均衡DR模式安装调试介绍 04.LVS负载均衡深入

大数据精英实战项目班-Hadoop-Spark-真实企业项目

2018最新最全大数据技术视频,项目视频.整套视频,非那种杂七杂八自己拼凑的,内容如下,需要的联系QQ:3164282908(加Q注明大数据) 更有海量大数据技术视频.大数据项目视频,机器学习深度学习技术视频.项目视频.Python编程视频.Oracle数据库视频.Java培训视频高级架构师视频等等等. ├----------01-大数据Java基础------------- │├java第01天 ││├java第01天-01.类型转换.avi ││├java第01天-02.归档分析与实现.av

最新大数据24期 共十天高清视频教程 附课件源码

课程目录: 大数据24期-01-JavaSE基础-15天 第一天: 01.什么是计算机软件02.什么数据软件开发--利用编程语言来写剧本03.什么是jdk--怎么安装jdk03.什么是jdk--怎么安装jdk04.安装启动eclipse04.安装启动eclipse05.配置eclipse的字体和布局06.新建一个java的类的步骤07.第一个java编程作品--HelloWorld08.java中的变量定义和变量赋值语法09.第一个java程序中的知识点梳理--终端输入--终端输出10.第二个j

0基础学习大数据你需要了解的学习路线和方向

现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己? 首先从字面来了解一下大数据 大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据的5V特点(IBM提出):Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracit

秦皇岛达内:零基础小白如何成为大数据开发大牛

目前最火的大数据,很多人想往大数据方向发展,想问该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高.如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么IT培训网小编就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统.硬件.网络.服务器感兴趣?是软件专业,对软件开发.编程.写代码感兴趣?还是数学.统计学专业,对数据和数字特别感兴趣. 其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控.大数据开发/ 设计/ 架构.数据

大数据开发是干什么的?

大数据作为时下火热的IT行业的词汇,随之而来的数据开发.数据仓库.数据安全.数据分析.数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点.随着大数据时代的来临,大数据开发也应运而生. 大数据开发其实分两种,第一类是编写一些Hadoop.Spark的应用程序,第二类是对大数据处理系统本身进行开发.第一类工作感觉更适用于data analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提供SQL的接口.第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或

0基础大数据学习路线及各阶段学习书籍推荐

要学习大数据,你至少应该知道大数据是什么,大数据将被用在什么领域.通过对大数据的一般理解,你可以了解你是否对大数据感兴趣. 01 大数据的零基础学习有以下步骤: 1.理解大数据理论 2.计算机程序设计语言学习 3.主要数据相关课程 4.实战项目 02 阶段学习推荐书籍: 阶段一.0基础学习打基础:java语言. Linux java可以说是大数据最基础的编程语言,我接触的很大一部分的大数据开发都是从Jave Web开发转岗过来的. 推荐书籍: <Effective Java中文版> 如果你想要

人工智能和大数据到底有什么关系?是如何联系在一起的?

大数据和人工智能是当今最流行和最有用的两项技术.人工智能诞生于十多年前,大数据诞生于几年前.计算机可以用来存储数百万条记录和数据,但分析这些数据的能力是由大数据提供的. 可以说,大数据和人工智能是两大令人惊叹的现代技术集合,为机器学习注入动能,不断重复和更新数据库,同时借助人类的干预和递归实验进行优化.本文将讲解如何通过人工智能和大数据解决与数据相关的所有可能问题. 01 大数据与人工智能 大数据和人工智能被数据科学家或其他大公司视为两个机械巨人.许多公司认为人工智能将给他们的公司数据带来革命.

大数据笔记01:大数据之Hadoop简介

1. 背景 随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢?   单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. 为解决这些存储容量.读写速率.计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为: (1)MapReduce (2)BigTable (3)GFS 技术革命性:    革命性变化01:成本降低,能使用PC,就不用大型机和高端存储.    革命性变化02:软件容错