深入浅出学习大数据:核心篇之大数据分析!

  • 一:数据分析目的和分类
    • 数据分析处理来自对某一兴趣现象的观察、测量或者实验的信息,数据分析目的是从和主题相关的数据中提取尽可能多的信息,主要目标包括:

    ? 推测或解释数据并确定如何使用数据;
    ? 检查数据是否合法;
    ? 给决策制定合理建议;
    ? 诊断或推断错误原因;
    ? 预测未来将要发生的事情

    由于统计数据的多样性,数据分析的方法大不相同,可以将数据根据下述标准分为几类:根据观察和测量得到的定性或定量数据,根据参数数量得到的一元或多元数据,此外,有些工作对领域相关的算法进行了总结,Manimom等对数据挖掘算法进行了分类,将其分为描述性(deive)、预测性和验证性(veryfying),Bhatt等则将多媒体分析方法划分为特征提取、变形、表示和统计数据挖掘,然而并没有对大数据处理方法进行分类的工作,Blackett等根据数据分析深度将数据分析分为三个层次:描述性(deive)分析,预测性分析和规则性(preive)分析。

    • 描述性分析

    基于历史数据描述发生了什么,例如,利用回归技术从数据集中发现简单的趋势,可视化技术用于更有意义地表示数据,数据建模则以更有效的方式收集、存储和删减数据,描述性分析通常应用在商业智能和可见性系统。

    • 预测性分析

    用于预测未来的概率和趋势,例如,预测性模型使用线性和对数回归等统计技术发现数据趋势,预测未来的输出结果,并使用数据挖掘技术提取数据模式(pattern)给出预见。

    • 规则性分析

    解决决策制定和提高分析效率,例如,仿真用于分析复杂系统以了解系统行为并发现问题,而优化技术则在给定约束条件下给出最优解决方案。

    • 二、应用演化

    数据驱动的应用在过去几十年里已经出现,例如,20世纪90年代在商业领域出现的商业智能,21世纪初期出现的基于数据挖掘的web搜索引擎,接下来将介绍在不同时期典型大数据领域中具有高影响力的大数据分析应用的发展。

    • (1)商业应用演化

    早期的商业数据是结构化的数据,由企业或公司收集并存储在关系数据库管理系统中,这些系统应用的数据分析技术通常是直观简单的,Gartner总结了商业智能应用的常用方法,包括报表(reporting)、仪表盘(dashboard)、即时查询(adhocquery)、基于搜索的商业智能、在线事务处理、交互可视化、计分卡、预测模型和数据挖掘。21世纪初期,互联网和web使得企业将其业务上线,并能和客户直接联系,大量的产品和客户信息如点击流数据日志和用户行为可以通过web收集,通过使用不同的文本和web挖掘技术,可以完成产品放置优化,客户事务分析,产品推荐和市场结构分析,据报道,2011年移动手机和平板电脑的数量首次超过了笔记本和PC机,移动手机和物联网构建了具有位置感知、个人为中心和上下文感知的革新性应用。

    • (2)网络应用演化

    早期的网络提供电子邮件和网站服务,因此文本分析、数据挖掘和网页分析技术被用于挖掘邮件内容、创建搜索引擎,网络数据占据了全球数据的绝大部分,包含文本、图像、视频、照片和交互式内容等多种类型的数据,随后,用于半结构化和无结构数据的分析技术得到了发展,例如,图像分析技术可以从照片中提取有意义的信息,多媒体分析技术可以使商业或军事领域的视频监控系统自动化,2004年后,诸如论坛、博客、社交网站、多媒体分享站点等在线社交媒体的出现使得用户能够产生、上传和共享丰富的用户自主创造内容,从这些不同人们发布社交媒体内容中可以挖掘每天的热门事件和社会政治观点等,从而提供及时的反馈和意见。

    • (3)科学应用演化

    科学研究的许多领域中高生产量的传感器和仪器将产生大量的数据,如天文学、海洋学、基因学和环境研究等学科领域,美国NSF宣布对BIGDATA项目进行立项,促进数据分享和分析,有些科学研究学科以前已开发出对海量数据的分析平台,并取得了有效地成果,例如在生物学科,iPlant利用信息基础设施,物理计算资源和支持互操作的分析软件等,向致力于丰富植物科学知识的研究者、教育者和学生提供数据服务,iPlant数据集是多样性的数据,包含权威的和供参考的数据、实验数据、仿真建模数据、观察数据和其他处理后的数据。

    .

    基于以上的分析,可以将数据分析的研究分为6个方向:结构化数据分析、文本分析、web数据分析、多媒体数据分析、社交网络数据分析和移动数据分析,结构化数据分析是指传统的数据分析,Web数据、多媒体数据、社交网络数据和移动数据,从数据形态上可能包括结构化数据的某些数据类型(如文本),但是在特定的应用领域里面,具有新的分析要求和特性。

    • 三、常用分析方法

    尽管目标和应用领域不同,一些常用的分析方法几乎对所有的数据处理都有用,下面将讨论三种类型的常用数据分析方法。

    • 数据可视化

    与信息绘图学和信息可视化相关,数据可视化的目标是以图形方式清晰有效地展示信息38),一般来说,图表和地图可以帮助人们快速理解信息,但是,当数据量增大到大数据的级别,传统的电子表格等技术已无法处理海量数据,大数据的可视化已成为一个活跃的研究领域,因为它能够辅助算法设计和软件开发,Friedman和Frits分别从信息表示和计算机科学领域对数据可视化进行了探讨。Tabusvis则是一个轻型的可视化系统,提供对多维数据的灵活、可定制的数据可视化。

    • 统计分析

    基于统计理论,是应用数学的一个分支,在统计理论中,随机性和不确定性由概率理论建模,统计分析技术可以分为描述性统计和推断性统计,描述性统计技术对数据集进行摘要(summarization)或描述,而推断性统计则能够对过程进行推断,更多的多元统计分析包括回归、因子分析、聚类和判别分析。

    • 数据挖掘

    是发现大数据集中数据模式的计算过程,许多数据挖掘算法已经在人工智能、机器学习、模式识别、统计和数据库领域得到了应用。此外,一些其他的先进技术如神经网络和基因算法也被用于不同应用的数据挖据。有时候,几乎可以认为很多方法间的界线逐渐淡化,例如数据挖掘、机器学习、模式识别、甚至视觉信息处理、媒体信息处理等等,此处以“数据挖掘”作为一个通称。

    原文地址:http://blog.51cto.com/13845947/2155039

    时间: 2024-10-06 04:29:00

    深入浅出学习大数据:核心篇之大数据分析!的相关文章

    王家林亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典 - 第71讲

    王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-71讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2 技术爱好者尤其是大数据爱好者 可以加DT大数据梦工厂的qq群 DT大数据梦工厂① :462923555 DT大数据梦工厂②:437123764 DT大数据梦工厂③

    透过现象看本质 大数据核心并不在规模大

    透过现象看本质 大数据核心并不在规模大谆籽做谞谞诅资祝仔渍庄昨赚缀阻透过现象看本质 大数据核心并不在规模大 http://www.songtaste.com/user/10226369/info http://www.songtaste.com/user/10226373/info http://www.songtaste.com/user/10226374/info http://www.songtaste.com/user/10226382/info http://www.songtaste

    自学大数据如何入手?大数据学习入门看什么书?

    2018年,火爆的科技层出不穷,大数据.云计算.人工智能.区块链等等都被侃侃而谈.尤其是大数据工程师更是深受程序员的青睐,如此火爆的职业,吸引了大批有志青年的加入.但在加入之前,你仍需要一份详细的就业前景分析报告. 作为中国官方重点扶持的战略性新兴产业,大数据产业已逐步从概念走向落地"大数据"和"虚拟化"两大热门领域得到了广泛关注和重视,90%企业都在使用大数据. 财政大数据包括:公安大数据.质检大数据.食品安全大数据.卫生大数据.共商大数据.民政大数据: 企业大数

    大数据人才缺口多大?data大数据工程师好就业吗?这是大家学习大数据最关心的问题

    小编来告诉你,大数据工程师年薪50万以上,技术人员缺口150万,高端技术人才未来会遭到企业疯抢.大数据方向由于人才稀缺度较高,薪资普遍更高,待遇涨幅也会超过其他岗位.接下分析大数据人才缺口和data工程师就业的问题. 高薪的背后是人才的紧缺,根据主流数据媒体调查,全国目前的大数据人才仅46万,未来3-5年内大数据的人才缺口将高达150万.有机构对一线城市2018年国内科技领域热门职位薪酬范围及跳槽涨幅进行了预测: 大数据方向由于人才稀缺度较高,相同工作年限的情况下,大数据工程师的薪资普遍更高,待

    苏宁人工智能研发中心智能创意平台架构成长之路(二)--大数据架构篇

    苏宁人工智能研发中心智能创意平台架构成长之路(一)--长篇开篇 https://www.cnblogs.com/laoqing/p/11326132.html   我们接着第一篇继续. (这是第二篇大数据架构篇,成长之路序列会包含多篇,笔者作为这个平台的架构兼技术经理,充分讲述其中的迭代心酸之路以及中间遇到的问题和解决方案) 声明:文章不涉及公司内部技术资料的外泄,涉及的图片都是重画的简易架构图,主要通过架构的演进,讲述分享技术的迭代之路和过程. 在第二轮迭代完成后,第三轮迭代中,我们就开始做平

    Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

    BAT&quot;做&quot;大数据,企业&quot;用&quot;大数据

    摘要 : 为什么Zara毛利率比LV高?当百度“大数据引擎”等互联网巨头向社会开放大数据基础设施,敢用.会用,就能创造更多商业奇迹和民生福利. 大数据,是不是“大忽悠”? 当Zara这家零售企业将大数据运用于创新经营时,它创造了比奢侈品巨头LV税前毛利率更高的奇迹!要知道,Zara平均服饰价格只有LV的四分之一. 随着百度开放“大数据引擎”,超级互联网公司们正在向全社会提供大数据的基础设施服务.敢用.会用,就可以创造更多类似的商业突破和民生福利. [为什么Zara毛利率比LV高?] 据悉, Za

    大数据(实战型)数据分析专家、首席分析师高级视频教程

    38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

    大数据常见的9种数据分析手段

    数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分类方法和数据处理模式,才能起到事半功倍的效果,以下是数据分析员必备的9种数据分析思维模式: 1. 分类 分类是一种基本的数据分析方式,数据根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质. 2. 回归 回归是一种运用广泛的统计分析方法,可以通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够很好

    了解大数据开发及和大数据相关的技术

    在现如今,随着互联网技术飞速的发展,目前有不少朋友询问关于大数据方面的问题,比如什么是大数据开发啊,和大数据相关的技术是什么呢等问题,我们今天就浅谈一下大数据开发及和大数据相关的技术的问题. 浅谈大数据开发及和大数据相关的技术 大数据学习QQ群:716581014 首先,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 那么和大数据相关的技术有哪些?