愿你的大数据能有点柴米油盐的味道.........

一直以来都有两个观点:1,当你不能够用生活中的例子来讲明白你所懂技术的时候,也许就是你自身对该技术理解深度不到位。2,牛人分两种,一种是把自己所会的技术讲的所有人都能听明白,而另一种就是讲的只有一小部分高手能听懂........

最近开始泡知乎论坛,买了一些Live开始学习。才发现自己对数据挖掘行业的认知浅薄,才知道自己该努力的方向。于是就有了今天的这篇文章:

大数据是什么?它跟柴米油盐有什么样的关系?大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?

1,大数据是什么?

实际上,最近一年。嚷嚷大数据的人很多,而这个词的热度也丝毫不减。而个人认为,大数据重要的是思维,是商业模式,而不是技术!大数据的这一思维能带给我们什么?不再是传统的拍脑袋做决定,而是依靠我们所拥有的数据跟行业经验,在这方面,行业经验非常重要。这也就是为什么互联网公司要想在传统行业做大数据分析必须要找到一个在这个行业经验很多的人的原因。
        记得一次中午吃饭,跟同事们就聊起了什么是大数据,什么是云计算的话题。实际很简单,我们吃饭的餐盘就是云,而我们食物就是大数据。而同事不是不知道云,他是不智道云跟我们有什么关系?它能带给我们什么?能给现在的工作提供哪些便利?
      云只是一个平台,重要的还是它的内容。我们用完餐,就会把餐盘放到收餐台上。而食物是我们所要吸收的,餐盘里不同的小格子可以放不同的食物,这些食物有些是大块,有些是小块,这些就相当于数据前期 的整理。专业点的说法就是数据清理,或者叫ETL。

2,它跟柴米油盐有什么样的关系呢?

要做好一道菜,或是做出一顿美食。缺少不了柴米油盐,就相当于有了数据,我们不仅要有烹饪的工具,而且还要有烹饪的技术。最近在看舌尖系列,就觉得中国人烹饪美食的技术不亚于现在IT的相关技术。只不过是我们都忽略了老祖宗的一些东西罢了........
      当我们把食材准备好的时候,我们就需要开始烹饪了。这里就拿我的拿手菜(茄子烧肉)来举例子吧:茄子有很多的切法,可以切条,也可以切丁(就是那种小块)。而肉也是可以切成丝,也可以切成丁,同时也可以切成肉沫(这就是借助搅拌机了)。这些数据原始加工的过程,很大程度上决定了你最终分析出来的结果。有人的喜欢吃茄丁,有的人喜欢吃肉沫,有的人喜欢大块的肉............而不同人的喜好决定了你的分析目标是什么?这也就是为什么数据挖掘里分析目标的关键性。
      当你有了分析目标之后,后边的油,盐,调料的多少就有了判断。而油是所有抄菜基上必须的一道步骤,这一步就相当于数据分析里的去缺失值,数据统计这一步。大体统计出数据的一个整体质量,有多少缺失值?中位数与平均数是否相等?是否符合正态分析?数据是呈现离散的,还是连续的?基本上都是在热锅的这一部分所要思考的。油热的好,葱姜蒜的香味就能出来,热不好,葱姜蒜有可能就糊锅了。后边抄菜的香味就出不来了。

3,大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?

数据科学家:厨师长
        数据科学家这个概念,最早听到是在IBM的一次沙龙活动中听到的。当时我们小团队也稀里糊涂拿到了优胜奖,以为我们就可以是数据科学家了。现在想想,真的是too young,too native。科学家那有那么简单的事。而大数据就是一个跟柴米油盐的工种,离科学家还有很远的距离!
      当掌握了大数据思维之后,你也要跟实际的业务相关连。相当于你知道如何抄这个菜之后,食材的选择,新鲜程度如何这一方面你也需要掌握。同时你也要了解到当下这个菜的大体定价...........等等一系列的东西,有数据有关的,与数据无关的。你都要掌握你可以成为一个合格的数据科学家。否则,还是不要拿这个title出去忽悠人。

数据挖掘:创作厨师
       至于数据挖掘,就你要你自创一个菜。刚开始学抄菜的时候,我们都是按照食谱一个一个的学着抄的。而到后期,当家人特别爱吃某两个菜的时候,你就要学会来调和这种菜的做法。比如,在做好鲫鱼豆腐汤的时候,是否要把冬瓜跟粉丝也放在一起。而当这样尝试之后,有的会成为一道更加美味的菜肴。而有的就不那以好吃了。
      从以上的角度来看,数据挖掘==自创菜,而数据分析==照菜谱抄菜。这样我们就能看出这两者的差别了。一个是有分析目标,一个是没有分析目标。数据挖掘有可能会为公司创造更大业绩,也有可能失败。就是因为你不知道你挖掘出来的目标是否符合公司的业务要求,或者说你挖掘出来的客户都很好,但在业务执行的时候就是会出很多问题。

算法工程师:火候厨师
      实际上,算法工程师在大数据行业里是很重要的。经常见到的说法就是:代码工程师好招。而是一个好的算法工程师难遇。换在古代的说法就是:千军易得,名将难求!
      在大一点的饭店,你都会发现,客人在等餐的时间都会很长。而如何加快上餐速度。如何最快的烹饪好食物,并摆盘上菜。这一块是很有讲究的。而算法工程师,他们需要了解客户的业务,同时也要了解自己数据系统的性能。只有这两者相结合,才能更好的从业务角度来优化自己的数据架构。在这里,想起当时导师跟我讲的一个例子,中国人在写C的时候,爱用指针去调用内存,而在国外有些成熟的公司里都是用数组堆栈来直接调用。因为系统的延迟效应也是决定着你的最终成败。
      在IT行业分工越来越细的今天,算法工程师的价值越来越大,有可能一个公司。一个算法工程师就相当于10个代码人员的工作效果。这里提到的不是效率,而是效果。因为最终的业务落地需要有内在的算法支持,但更重要的是你的代码逻辑表达。

      好了,这次就先写到这吧!以后会坚持写的,希望能把抄菜大数据系列写完。最后,还是要感谢下公司,不定期的发菜(按照惯例,最后还是放上一道学会抄的菜),让我对各种菜谱开始了学习,在不能学习技术的同时,抄菜过程中也是对所学的知识进行深入思考。希望自己未来能抄得一手好菜,也能在大数据上精进一些,加油!

时间: 2024-10-09 14:23:46

愿你的大数据能有点柴米油盐的味道.........的相关文章

每年为联想省去一个亿 ——Talend大数据解决方案实例

联想公司是一家价值 340 亿美金的个人技术公司和世界上最大的个人电脑供应商.一个企业组织如何构建其愿景.团队和平台以便于更了解其客户的特征是联想面临的最大问题. 2013年, 联想需要将所有数据管理从他们的外包供应商迁移出去.没有预算,没有团队, 没有平台, 联想必须从零开始. 挑战 什么特定产品具有最大的获利能力? 我们应该展示的产品的正确配置是什么? 价格促销及相应竞争是什么? 哪些客户受营销策略的影响并有可能改变他们的采购? 不同组的用户体验的区别是什么? 在他们放弃现有购物车中选定的产

探析大数据需求下的分布式数据库

一.前言 大数据技术从诞生到现在,已经经历了十几个年头.市场上早已不断有公司或机构,给广大金融从业者"洗脑"大数据未来的美好前景与趋势.随着用户对大数据理念与技术的不断深入了解,人们已经开始从理论探索转向对场景落地的寻找,让大数据在企业中落地并开花结果. 从大数据的管理和应用方向集中在两个领域.第一,大数据分析相关,针对海量数据的挖掘.复杂的分析计算:第二,在线数据操作,包括传统交易型操作以及海量数据的实时访问.大数据高并发查询操作.用户根据业务场景以及对数据处理结果的期望选择不同的大

[大数据性能调优] 第二章:彻底解密Spark的HashShuffle

本課主題 Shuffle 是分布式系统的天敌 Spark HashShuffle介绍 Spark Consolidated HashShuffle介绍 Shuffle 是如何成为 Spark 性能杀手 Shuffle 性能调优思考 Spark HashShuffle 源码鉴赏 引言 Spark HashShuffle 是它以前的版本,现在1.6x 版本默应是Sort-Based Shuffle,那为什么要讲 HashShuffle 呢,因为有分布式就一定会有 Shuffle,而且 HashShu

DT大数据梦工厂 第81讲

DT大数据梦工厂 第81讲http://yun.baidu.com/s/1uLFye本节王老师讲了list的逆变,协变,下界.abstaract class Big_Dataclass Hadoop extends Big_Data//一种 类型class Spark extends Big_Data//另一种类型object List_Constructor _Internals{ def main(args:Array[String]){  val  hadoop=new Hadoop::N

数加平台——阿里大数据OS实践

数加是什么 在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute.ADS.流计算.大数据开发套件:人工智能部分,机器学习(基础平台是PAI).语音识别.ET等:数据分析展现部分,数据可视化(大屏.BI报表).I+关系网络分析(安全领域用的比较多):数据应用部分,推荐引擎(提供面向终端用户的服务,以大数据中间件存在)等.天池比赛也是基于数加平台,数加数据市场相当于大数据的App Store. 数加是什么?数加=数加平台+数加市场+数加应用.平

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

大数据将促进分布式数据库发展及去Oracle

2015-09-13 张晓东 东方云洞察 点击上面的链接文字,可以快速关注"东方云洞察"公众号 分布式数据库简介 分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库, 通过网络互相连接共同组成一个完整的.全局的逻辑上集中.物理上分布的大型数据库. 分布式并行数据库通过并行使用多个CPU和磁盘来将诸如装载数据.建立索引.执行查询等操作并行化以提升性能的数据库系统.其中最重要的关键

大数据中找上中位数的方法

题目: 40亿 大整数,组成了一个大文件.想找到其中的 上中位数该怎么办?内存:10MB,怎么办?内存:20K,怎么办?内存:有限几个字符,怎么办?条件:按行读取文件,读取操作不占用内存. 应该具备的能力:2^k = ? 应该都能够熟记,达到反射性反应的程度.字节数 对应计算机中的 容量(T, G, M, K) 内存只有 10MB 的情况接下来我们来解题:看到大数据容量限制的,首先想到的是从范围入手.1. 数据是 有符号? / 无符号?2. 我们知道一个 4字节的无符号整数 范围为:0~42亿

未来10年是大数据价值变现的阶段

“未来几年,所有的金融企业,包括现在的银行.券商.保险和所有在线上风起云涌做金融生意的运营商,争夺的就是一件事情——那就是国民财富账户.国民财富账户如今是通过什么样的渠道去会聚.去使用.去体验的呢?那就是指尖上的银行.TalkingData不仅拥有移动数据,同时我们跟线上.线下的大型金融企业.金融机构和金融运营商进行了很多深入的合作.我们举办这样一场发布会,就是想从TalkingData的角度,看一看今天在指尖上所有做金融相关业务的状态是什么样子.”TalkingData执行副总裁林逸飞在Tal