大数据之我见

在此通过这一段时间学习王老师课程,记录一些我对大数据的一个理解。
大数据能给我们带来什么?

用户行为分析是一个十分广域的概念,顾名思义,就是去分析用户的日常行为习惯,记得以前我做过一个中国移动的用户行为分析系统。主要通过log4j记录访问信息,然后定时分析log日志。最终分析出每个页面每个按钮的流入流出量.这其实是一个数据分析,还远远够不上大数据范畴,试想 上tb 甚至 pb的数据量分析起来是什么概念。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、Value(价值)、真实性(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、 数据分析、数据挖掘等等围绕大数据的商业价值 的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。
一个最简单的例子,超市的物品摆放。我们可以通过超市每人购物的习惯通过mahout算法来推断出来每个物品的相似度,比如买啤酒的用户习惯买纸尿片和花生。由此我们可以将这三种物品摆放的比较近。这就会给超市带来更多的销售额。
怎么样,很直观吧,这也是我之所以接触大数据的一个重要原因。

王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程, 目前已经发布的王家林免费视频全集如下:
1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq 
2,《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu 
3,《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1jGpNGwu 
4,《Scala深入浅出实战经典》http://pan.baidu.com/s/1sjDWG25 
5,《Docker公益大讲坛》http://pan.baidu.com/s/1kTpL8UF 
6,《Spark亚太研究院Spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd 
7,DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接:
http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group 
王家林免费在51CTO发布的1000集合大数据spark、hadoop、scala、docker视频: 
1,《Scala深入浅出实战初级入门经典视频课程》http://edu.51cto.com/lesson/id-66538.html 
2,《Scala深入浅出实战中级进阶经典视频课程》http://edu.51cto.com/lesson/id-67139.html 
3,《Akka深入浅出实战经典视频课程》http://edu.51cto.com/lesson/id-77672.html 
4,《Spark亚太研究院决胜大数据时代公益大讲堂》http://edu.51cto.com/lesson/id-30815.html 
5,《云计算Docker虚拟化公益大讲坛 》http://edu.51cto.com/lesson/id-61776.html 
6,《Spark 大讲堂(纯实战手动操作)》http://edu.51cto.com/lesson/id-78653.html 
7,《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》http://edu.51cto.com/lesson/id-77141.html 
8,《从技术角度思考Hadoop到底是什么》http://edu.51cto.com/course/course_id-1151.html

“DT大数据梦工厂”团队第一个中国梦:免费为社会培养100万名优秀的大数据从业人员。每天早上4点起持续分享大数据、互联网+、O2O、工业4.0、微营销、移动互联网等领域的
精华内容,帮助您和公司在DT时代打造智慧大脑,将生产力提高百倍以上!
DT大数据梦工厂微信公众号:DT_Spark,二维码如下,期待大家加入!

时间: 2024-12-23 08:49:41

大数据之我见的相关文章

R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺. 当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作.但通常来说,如今大数据方面有三种语言可以选择:R.Python和Scala,外加一直以来屹立于企业界的Java.那么,你该选

R、Python、Scala和Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺. 当然,没有什么阻止得了你使用其他机制(比如XSLT转换)来处理大数据工作.但通常来说,如今大数据方面有三种语言可以选择:R.Python和Scala,外加一直以来屹立于企业界的Java.那么,你该选

阿里巴巴年薪800k大数据全栈工程师成长记

阿里巴巴年薪800k大数据全栈工程师成长记阿里 大数据全栈工程师一词,最早出现于Facebook工程师Calos Bueno的一篇文章 - Full Stack (需fanqiang).他把全栈工程师定义为对性能影响有着深入理解的技术通才.自那以后全栈这个词便流行起来,我看到过的就有大数据全栈工程师,大数据全栈设计师,大数据全栈运维,大数据全栈市场营销人员等等.我自己是名大数据程序员,建了一个大数据资源共享群593188212 每天分享大数据学习资料和学习方法 欢迎初学和进阶中的小伙伴.现在我们

一位转行成功并从事5年的大数据的经验分享

本人29岁,从学大数据到现在有5年的时间,我谈一下我的经验分享 我自己的经历:刚开始大数据是看书,一页页的看书,因为身边有一个好的资源,有问题可以问我朋友,后来发现看大数据的零基础书籍很难看下去,很多专业的东西对于一个新手根本就看不懂,没有什么效率.(在这里我个人建议,初学不要看书,我的建议是学完一部分后用书去温习,这样很多东西都可以明白,并且可以查缺补漏) 后来是跟着马士兵的视频学习,那个视频算是经典的,但是现在看的话是多少有些老了,学大数据的时候感觉很多地方根本就不懂,视频上的东西可以看得懂

关于MATLAB处理大数据坐标文件2017620

暑假已至,接下来组内成员将会各回各家,各找各妈,这肯定是对本次大数据比赛是很不利的. 接下来我会把任务分配给组员,当然任务会比起初的时候轻一点,因为我认为本次比赛的目的并不是我要求组员做什么,而是我的组员要求自己做什么! 我们现在主要接触的两门语言: MATLAB语言在数据处理方面很牛,它的画图功能也是杠杠的,尤其是3D画图 Python语言是一门近几年很火的语言,学好它对自己肯定只有益处,它的出生很晚,但是短短十多年,它已经稳居计算机语言前三名.尤其是现在的大数据时代,它的代码不仅简单易懂,而

【IT十八掌大数据】学习笔记

hive简介: -------------------- 0.big data的特点:4 Volumn variety velocity value 1.介绍 数据仓库    //online analyze process,在线分析处理. 用来查询和管理位于分布式存储设备上的大型数据集. Hive提供了一种类SQL语言--HiveQL(HQL)进行查询分析. HiveQL可进行插件式扩展. 擅长处理结构化数据.非结构化的数据没办法创建对应的模式. 位于hadoop之上,重点在于对大数据进行分析

Pandas中如何处理大数据?

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

一站式大数据敏捷分析平台

OpenFEA是一站式大数据敏捷分析系统,融合了内存计算.集群运算.机器学习.交互分析.可视化分析等技术,涵盖数据收集.数据探索.构建模型.模型发布等功能,分析性能卓越,使用简便,无需复杂编程即可快速实现大数据分析,助力数据分析师激扬数据,塑造业务标杆.          数据收集         OpenFEA能够融合更多类型的数据来进行运算,支持关系型数据源. Hadoop数据源.数据文件.第三方数据源. 支持数据源与接口/格式的双向自定义机制.表示各种复杂结构或LOAD和STORE各类数据

SPARK大数据计算BUG处理:

大数据计算BUG处理: 程序修改前资源情况: Driver : 1台 Worker : 2台 程序提交申请内存资源 : 1G内存 内存分配情况 : 1. 20%用于程序运行 2. 20%用于Shuffle 3. 60%用于RDD缓存 单条TweetBean大小 : 3k 1. 内存溢出 原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行.则某个campaign数据量较大时,如500W数据,则500W*10k=50G,超出内存限制. 解决方法: 先按数据量