【大数据论文笔记】大数据技术研究综述

大数据的基本概念:

1.大数据的产生

a.科学研究

b.物联网的应用

c.海量网络信息的产生

2.大数据概念的提出

3.大数据的“4V”特征

a.Volume(容量大):大数据巨大的数据量与数据完整性

b.Variety(种类多):要在海量、种类繁多的数据间发现其内在关联

c.Velocity(速度快):更快地满足实时性需求

d.Value(价值密度低):将信息转化为知识

4.大数据的应用领域

a.商业

b.金融

c.医疗

d.制造业

大数据的处理流程

1.数据采集

2.数据处理与集成(过滤)

3.数据分析(核心)

4.数据解释(数据可视化)

大数据关键技术

1.云计算和MapReduce

云计算:

a.服务IaaS

b.平台即服务PaaS

c.软件即服务SaaS

MapReduce:

2.分布式文件系统

GFS:主要采取主从结构(Master-Slave),通过数据分块、追加更新等方式实现海量数据的高速存储

3.分布式并行数据库

BigTable:

NOSQL:

4.开源实现平台Hadoop

5.大数据可视化

大数据带来的挑战:

1.大数据的安全与隐私问题

2.大数据的集成与管理问题

a.数据存储

b.数据清洗

3.大数据的IT技术架构问题

a.大数据分析技术

b.数据融合

c.大数据能耗问题

4.大数据的生态环境问题

时间: 2024-08-01 12:34:35

【大数据论文笔记】大数据技术研究综述的相关文章

【大数据论文笔记】大数据系统和分析技术综述

1.大数据处理与系统   简介 特征 典型应用 代表性的处理系统 适用场景 批量数据处理系统 首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标 1.数据体量巨大2.数据精确度高3.数据价值密度低 1.互联网领域:      a.社交网络      b.电子商务      c.搜索引擎2.安全领域      a.IT安全      b.欺诈检测      c.识别恶意软件和网络攻击模式3.公共服务领域      a.能源(eg.石油

集群调度技术研究综述

1  引言 什么是调度?个人理解最初的调度是和时间有关的.时间作为唯一的不可逆转的资源,一般是划分为多个时间片来使用(如下图所示).就计算机而言,由于CPU的速度快的多,所以就有了针对CPU时间片的调度,让多个任务在同一个CPU上运行起来.这是一个假象,某一时刻CPU还是单任务运行的. 后来为了在同一时间进行更多的任务,需要在同一时间内干多件事情.如果多个人或者多个处理器为了完成一个任务目标一起工作,就需要一个协调者.这就是一个分布式系统,就单个数据中心或者小范围来说,就是集群.如果让一个分布式

伪AP检测技术研究

转载自:http://www.whitecell-club.org/?p=310 随着城市无线局域网热点在公共场所大规模的部署,无线局域网安全变得尤为突出和重要,其中伪AP钓鱼攻击是无线网络中严重的安全威胁之一. 受到各种客观因素的限制,很多数据在WiFi网络上传输时都是明文的,如一般的网页.图片等:甚至还有很多网站或邮件系统在手机用户进行登陆时,将帐号和密码也进行了明文传输或只是简单加密传输(加密过程可逆).因此,一旦有手机接入攻击者架设的伪AP,那么通过该伪AP传输的各种信息,包括帐号和密码

大数据学习笔记7·城市计算(1)

前言 众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

大数据学习笔记3&#183;社会计算中的大数据(1)

背景信息 什么是用户行为数据,用户行为数据是怎么积累的.为什么我们需要研究用户理解以及为什么用户理解这么重要.在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作.例如,怎样处理用户轨迹中的数据缺失问题,怎么样为用户推荐有趣的地点.在最后一部分,我会展示我们近期在用户分析和隐私保护方面的研究项目. 这张图展示了每分钟用户在一些网站上产生的数据量. 用户数据是怎么样收集的 二十多年之前,那时候普适计算的概念才刚刚被提出来.马克.维瑟提出了普适计算的概念.那时候已经有了大型机和个人计算机,人们

技术不是大数据第一生产力,数据交易才能带来应用爆发

导言:我从事大数据工作10余年,很多时候和圈内朋友谈及大数据,大家首先都谈到的是数据挖掘和人工智能算法,或是hadoop的架构.我也曾深陷这样的误区,认为"只要会写算法.实现架构就是大数据的全部":但我这些年的应用实践中,越来越发现,大数据发展最大的瓶颈不是技术,而是高质量数据源的获取.提供和交易环节没有被打通. 技术不是关键高质量的数据源永远是第一位 大数据行业很多新人,甚至业内多年从业者都有这个误区:认为算法.模型很重要.而我认为,即使技术达到世界顶级水平,它依旧不是大数据价值引擎

大数据学习笔记6&#183;社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

宜信大数据实时授信平台技术、架构、模型解析(PPT)

宜信大数据实时授信平台包含姨搜.知识图谱.授信和反欺诈引擎等模块.平台结合了用户授权数据.第三方数据.互联网海量数据等不同数据源,最大限度地获取 用户信息.授信和反欺诈引擎结合了专家知识和机器学习算法,分析客户的信用状况和欺诈风险,实时估计授信额度.检测欺诈风险. 这个平台到底是做什么事情的?通过对各种各样不同的数据员的接入,包括自己的数据.通过对它的接入分析,梳理,挖掘,关联和理解. 做了一堆的事情,但是三样最重要的事情是说, 第一个分析客户的信用状况. 二我们会检查欺诈的风险,我们这个行业欺