大数据的三个入口

大数据的热门使得非常多人都想往这个方向发展,做一些像数据挖掘,数据分析之类的工作。可是该从何開始呢?要如何才干高速学到一些实用的知识,技能呢?我认为有三个切入点,按照个人特点能够自行选择顺序切入。

1机器学习/数据挖掘

数据挖掘主要依赖于大部分机器学习算法,近些年因为深度学习算法的开发以及无人驾驶汽车等应用的实习使得机器学习变得热门,可是机器学习是个非常深的学科,专门讲这门课程的学校也不多,对于硕士生,假设学过最优化等,学起来比較easy,但本科生要学好,就要非常扎实的概率论与数理统计的基础。之前我看了非常多这发面的书,认为非常痛苦,但我越来越认为,这个东西有那么重要么?

我觉得,假设不是博士,不是必需把机器学习/深度学习学的非常深。就像算法是非常重要,但程序猿不是必需都像ACM队员那样练习算法。我们学习机器学习是为了使用他,并且主要的那几个算法已经开发的差点儿相同了,我们最须要掌握的就是如何使用它们,并且就那么几个算法,仅仅有每一个都用过几次就掌握了,所以我非常推荐边学边应用到实际,依据自己的兴趣,找点数据,看看能不能挖掘出什么实用的信息,这样也有成就感。这里我推荐一本书:《机器学习:实用案例解析》。同一时候,建议学习一门新的语言:R语言。假设不想学,那么用C,python也都是能够的。(超大规模数据是不能用R的)

最后,我认为这部分并不一定先開始学,也不用每个算法都掌握十分熟悉,先熟练掌握一到两个。

2Hadoop实战

hadoop基本是大数据的代名词了,由于他提供了一个平台,使得我们能够去处理超大的数据,至于怎么处理,处理后能得到什么,它无论。hadoop尽管仅仅是个软件,可是有非常复杂的原理,我们要知道他是如何把大数据分不到好几个电脑上,知道MapReduce的原理。然后,就是如何运作了。强烈建议大家自己安装好hadoop(要配置集群,自己剪虚拟机吧),然后在上面编点小程序练手。

Hadoop另一个特点就是他有许多的附加服务,每一个都有各自的功能,很复杂,可是比如Hive,HBase等是很重要的,也须要知道他们的工作原理,及用法。因为这部分大多是实战,学起来也不那么枯燥,所以我认为这部分能够多用的点时间,把原理和方法都弄熟练,同一时候还要熟悉Linux环境,语言当然是JAVA。

3数据库

大数据毕竟也是数据,是离不开数据库的,非常多人没有有数据库的基础,那么这方面也是不可缺少的,各种数据库的特点都要有所了解,SQL的语句也要能熟练使用,即便大数据不热门了,数据库技术也会非常重要的。

我认为把上面3点全都做到的话,那么你肯定是一个全面的大数据人才,随便就能找个好工作了。可是我认为数据挖掘这个东西,方法技能是一方面,另一方面是意识层次的,也就是你对行业、商业的嗅觉有多大,你挖掘出来信息后能不能再经过自己的思考,变成对公司甚至人类有直接优点的观点。所以建议大家平时多关注互联网及其它行业的发展趋势,比較全面型的人才才是真的人才,大数据人才也不是一个普通程序猿就能随便当的。

准备以后就写一些大数据方面的博文,自己学习的同一时候与大家分享知识是非常快乐的。

时间: 2024-11-04 10:55:20

大数据的三个入口的相关文章

企业存储大数据的三种环境

大数据的部署实施需要结合具体的应用场景.实际上,企业大数据的存储处理可以用 “三只小猪盖房子”(分别使用稻草.木头和砖头)的故事来说明,这个故事能更形象地反映数据存储环境下与交付服务(成本)相对应的不同保护级别(完整性和可靠性). 财务数据.对外报告和法规遵从性数据需在“砖房”(BRICKS)环境中存储处理.这些数据需要可靠的硬件基础设施,并与其原始来源保持一致.企业中多个职能部门使用产品服务定价决策.销售业绩及分析以及至关重要的员工/管理层薪酬激励机制计算等财务数据,这是很常见的情况. 精心设

成功运用大数据的三个原则

现如今,大数据能够帮助企业确定客户的需求,大数据能够确定客户的偏好并且大数据还能确定客户的愿望,大数据能够帮助他们了解如何满足这些不同的需求,大数据能够帮助他们如何满足特点怪癖和特性. 一.基于事实做决策,而不是凭直觉 数据分析为企业带来的最大好处是,可以基于确切数据来作出决策,而不是凭直觉.在企业意识到这一点后,企业会采取具体的步骤来满足企业需求,即客户需求.内部需求.物流需求等. 数据分析可以帮助指导企业的业务决策,通过分析数据,帮助企业决定是否继续提供某种产品或服务,不仅是基于销售数字,还

初识大数据(三. 大数据与人工智能的关系)

大数据与人工智能有什么关系呢?AI本身就是一种大数据的应用,特别是在对于AI系统进行训练的时候,使用的数据越多,AI系统就越先进.也就是说对于人工智能系统进行训练使用的数据量越大,数据质量越好,人工智能系统的质量就越高,从这个意义上来说AI本身也是一种大数据应用.        机器学习是人工智能的子集,深度学习是机器学习的子集,但是深度学习的影响是最大的,比如图像识别.语音识别.语义识别.   常用框架: 1. Scikit-Learn: 基于 Python 语言的机器学习工具, 该算法库显得

大数据开发:(三)flume上传HDFS

开启hadoop:start-dfs.sh 通过浏览器访问node节点,http://IP:50070 检查 (如果无法访问,将防火墙关闭) 如果jps查看缺少了某个节点,首先查看xml文件是否正确,如果正确,删除hadoop/tmp文件夹,然后再次格式化,(格式化会重新创建hadoop/tmp),再次启动 操作分布式文件存储系统HDFS 查看hdfs中的文件内容 hadoop fs -ls / 查看hdfs中的详细内容hadoop fs -ls / 在HDFS中创建文件夹hadoop fs -

初识大数据(三. Hadoop与MPP数据仓库)

MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法. 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果. MPP DBMS是建立在这种方法之上的数据库管理系统.在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程,它们的运行时间比传统的SMP RDBMS系统快得多.该架构的另一个优点是可扩展性,因为可以通过添加新节点扩展网格.为了能够处理大量的数据,这些解决方案中的数据通常在每个节点只处理其本地数据

大数据第三天作业

1.定义一个函数,函数功能是动态提取int[]中元素的最大值. public class Main { /**  * 定义一个函数,函数功能是动态提取int[]中元素的最大值.  */ public static void main(String[] args) { //定义数组 int[] nums = new int[5]; //初始化数组 for(int i= 0;i<5;i++){ nums[i] = i; } int max = getMax(nums); System.out.pri

大数据【三】YARN集群部署

一 概述 YARN是一个资源管理.任务调度的框架,采用master/slave架构,主要包含三大模块:ResourceManager(RM).NodeManager(NM).ApplicationMaster(AM). >ResourceManager负责所有资源的监控.分配和管理,运行在主节点: >NodeManager负责每一个节点的维护,运行在从节点: >ApplicationMaster负责每一个具体应用程序的调度和协调,只有在有任务正在执行时存在. 对于所有的applicati

大数据存储系统三

目录 一.Document Store 1.数据模型 1.1 Json 1.2 Google Protocol Buffer 2.MongoDB 2.1 API and Query Model 2.2 Architecture 二.图存储系统 1.图数据模型 2.Neo4j 3.RDF和Sparql (本文为陈世敏老师课程笔记) ----------------------------------------------------- 一.Document Store 1.数据模型 1.1 Js

大数据第三次作业

from turtle import * def drawstart(x, y, angle, length): up() setpos((x, y)) down() right(angle) begin_fill() for i in range(5): forward(length) right(144) end_fill() bgcolor('red') color('yellow', 'yellow') drawstart(-200,60,0,100) drawstart(100,170