搭建Data Mining环境(Spark版本)

前言:工欲善其事,必先利其器。倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来自于笔者在实践项目开发中的记录,真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料。下面是它的一些说明:

  • 它是部署在Windows环境,在项目的实践开发过程中,你将通过它去完成与集群的交互,测试和发布;
  • 你可以部署成使用MapReduce框架,而本文主要优先采用Spark版本;
  • 于你而言,它更多意义在于提高你在个人主机上进行业务场景建模的效率,方便你对算法模型进行测试和优化,以及打包、提交任务。
  • 于我而言,网络上各种鱼龙混杂的资料,一方面是内容误导新人,更缺乏资源整合,一方面仅仅是搬运工,缺乏实践项目中的开发经验,有头无尾。这更是这篇文章的初衷。

说完上面这些杂七杂八的伏笔,下文我将深入仔细去引导你,如何去搭建属于自己Spark版本的Data Mining环境,以及某些环节在实践项目中开发的必要性。

第一步 : Java安装和配置(1.7或者1.8)

  • 理由:这是必须要去部署的环境,不解释。不过注意区分版本、以及个人主机是32位还是64位;
  • 下载:本文提供1.8版本的下载 ,其中32位下载64位下载
  • 安装配置:
    • 1.【安装】:点击软件进行安装,按照引导步骤,并指定安装目录(个人喜爱),本文选择默认安装路径;

      jdk安装路径

    • 2.【配置】:配置环境变量JAVA_HOME和路径PATH,选择我的电脑>系统属性>高级系统设置>环境变量;

      环境变量设置

      a.新建JAVA_HOME,为C:\Program Files\Java\jdk1.8.0_20。
      b.新建CLASSPATH,为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”
      c.编辑Path,添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”

考虑到有不少读者非软件专业,因此这里没有一笔带过基本的软件安装。最终安装成功的显示如下所示:

成功安装java的显示

第二步 : IDE安装和配置(Eclipse或者Spring Tool Suite)

  • 理由:编写工程代码的集成环境,也就是你写代码的地儿。注意IDE区分版本、以及个人主机是32位还是64位;
  • 下载:本文提供最新STS版本的下载 ,其中32位下载64位下载。也可以使用Eclipse或SBT;
  • 安装配置:
    • 1.将安装包下载放在选定目录,进行解压就可以了,并创建桌面快捷方式,方便以后使用;

STS解压后应用程序

在后期使用IDE时,考虑到个人有代码洁癖,因此,我都推荐先设置好这几点:a.字体大小和类型,b.缩进方式,c.代码行数序号

第三步 : IDE插件的加载

  • 理由:编写MapReduce/Spark工程需要的插件,注意区分hadoop版本。
  • 下载:本文提供hadoop2.6.0版本的插件 ,其中下载地址
  • 安装配置:
    • 1.将Jar包放在STS目录,位置于\sts-bundle\sts-3.8.1.RELEASE\dropins下;

第四步 : Maven的安装配置

  • 理由:开发实践数据挖掘项目,更多采用Maven进行项目管理。
  • 下载:本文提供两个版本的下载 ,其中3.3.3下载3.3.9下载
  • 安装配置:
    • 1.将安装包解压放在指定目录,设置全局变量M2_HOME和添加路径PATH;

MAVEN的全局变量和路径设置

Maven安装成功的显示

第五步 : hadoop包的下载配置

  • 理由:代码执行过程中依赖hadoop的环境,需要单独配置hadoop的执行路径。
  • 下载:本文提供2.6.0版本的下载 ,其中下载地址
  • 安装配置:
    • 1.将安装包解压放在指定目录,设置全局变量HADOOP_HOME和添加路径PATH;

配置hadoop的全局变量和路径

第六步 : hadoop插件的加载配置

  • 理由:代码执行过程中依赖hadoop的JAR插件,需要单独编译或者下载,放置在上述hadoop解压包的bin目录下。
  • 下载:本文提供2.6.0版本的插件下载 ,其中32位64位
  • 安装配置:
    • 1.将安装包解压放在指定目录,将hadoop.dll和winutils.exe放在hadoop的bin目录下就可以了;

将hadoop插件放置于bin目录下

第七步 : spark包的下载配置

  • 理由:代码执行过程中依赖spark的配置环境,需要下载包放置在指定目录,并设置全局变量和路径。
  • 下载:本文提供spark-1.6.2-bin-hadoop2.6版本的插件下载 ,其中下载地址
  • 安装配置:
    • 1.将安装包解压放在指定目录,设置全局变量SPARK_HOME和添加路径PATH;

配置Spark的全局变量和路径

通过上述的安装,可以通过下面的显示来验证是否成功

Spark配置成功的显示

第八步 : scala环境的安装配置

  • 理由:代码执行过程中依赖scala的配置环境,需要安装scala环境,并设置全局变量和路径。
  • 下载:本文提供三个版本的安装包下载 ,其中2.10.12.10.42.11.0
  • 安装配置:
    • 1.将安装包安装在指定目录,设置全局变量SCALA_HOME和添加路径PATH,最终安装成功显示如下;

scala成功安装的显示图

第九步 : scala ide集成插件的加载配置

  • 理由:IDE集成环境执行过程中依赖scala插件的相关JAR包,需要单独下载相应版本的scala
    ide,并将features和plugins目录下的文件都复制到上述STS集成环境下。
  • 下载:本文提供两个版本的包下载 ,其中32位64位
  • 安装配置:
    • 1.将下载包解压,复制features和plugins目录下的文件到\sts-bundle\sts-3.8.1.RELEASE\
      下的同命名文件目录中去;

scala ide集成插件复制到sts指定目录

至此,通过以上9个步骤的下载、安装和配置,一个基于Windows的标配大数据挖掘环境就已经搭建好了。上面这些版本和链接都会在以后日子进行更新迭代,有部署过程中遇到问题的小伙伴,也可以积极将问题和截图发到评论里,一起进行解决。

  • 下面的内容,本文就利用上述所有步骤部署的大数据挖掘环境做一个实践项目开发的流程,后期文章中会更深入引导数据产品中的数据挖掘工程开发。让真正想踏入大数据圈子做数据挖掘的小伙伴们,能够清楚自己目前应该做的事,以及公司级别实践应用的场景。不脱节、不迷茫、不盲目!

Step1:创建MAVEN工程

创建Maven工程中的步骤一

创建Maven工程中的步骤二

Step2:创建工程中的对象

创建Maven工程中的对象

创建成功显示图

Step3:配置好pom.xml文件,下载相关Spark依赖包

修改pom.xml文件,添加工程依赖包坐标

Step4:写一个朴素贝叶斯模型里涉及先验概率计算的逻辑,后期深入的开发等着以后的文章吧!

(点击放大图像)

代码逻辑,让大家看看模样

总结:工欲善其事,必先利其器!这句话里面有两层的逻辑,一方面,你在要踏入大数据挖掘领域的同时,应该要学会部署一套上述这样的环境,因为它对于你的模型工程开发、集群任务提交、数据产品项目开发、甚至是以后的模型优化重构,都是至关重要!一方面,我希望真正想学习大数据挖掘的小伙伴们,要走一个正确的方向,真正理解大数据生态圈的特点,要致力于为数据产品提供源源不断的大数据挖掘体系而奋斗。

出处:http://www.infoq.com/cn/articles/datamining-spark-env

时间: 2024-10-19 06:50:57

搭建Data Mining环境(Spark版本)的相关文章

做Data Mining,其实大部分时间都花在清洗数据

做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50  51CTO 原文  http://bigdata.51cto.com/art/201612/524771.htm 主题 数据挖掘 前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理.往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗.可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑. 大数据圈里的一位扫地僧 说明:这篇文章很

Oracle RAC + Data Guard 环境搭建

国庆之前就准备做这个实验了. 后来时间不够,就没搞了. 6天的长假一放,都散漫的不成样子了.懒散了很多. 今天7号. 上班也没啥精神,但是该做的实验还得继续. Oracle 高可用性的三个主要体现是: RAC, Data Guard 和 Stream.  所以熟练掌握这些技术就是评价DBA的标准一个. RAC + Data Guard 主要用在灾备或者报表服务器上. 比如用RAC+ 逻辑standby 做报表,从而减轻RAC 系统的压力. 关于Data Guard 的一些原理知识可以参考: Or

SpringData系列一Spring Data的环境搭建

本节作为主要讲解Spring Data的环境搭建 JPA Spring Data :致力于减少数据访问层(DAO)的开发量.开发者唯一要做的就是声音持久层的接口,其他都交给Spring Data JPA来帮你完成! 使用Spring Data JPA进行持久层开发需要的四个步骤: 配置Spring 整合 JPA 在Spring配置文件中配置Spring Data,让Spring 为声明的接口创建代理对象.配置了<jpa:repositories>后,Spring 初始化容器时将会扫描base-

SpringData系列一 Spring Data的环境搭建

本节作为主要讲解Spring Data的环境搭建 JPA Spring Data :致力于减少数据访问层(DAO)的开发量.开发者唯一要做的就是声明持久层的接口,其他都交给Spring Data JPA来帮你完成! 使用Spring Data JPA进行持久层开发需要的四个步骤: 配置Spring 整合 JPA 在Spring配置文件中配置Spring Data,让Spring 为声明的接口创建代理对象.配置了<jpa:repositories>后,Spring 初始化容器时将会扫描base-

用Qemu搭建x86_64学习环境

作者信息 作者:彭东林 邮箱:[email protected] QQ:405728433 软件平台 主机: Ubuntu14.04 64位版本 模拟器:Qemu-2.8.0 Linux内核版本: Linux-4.10 Busybox版本:busybox-1.24.2 工具链: gcc 具备的功能 模拟一个双核或者单核的x86_64架构的系统,根文件系统用ramdisk的形式,跟Host之间采用NFS的方式实现文件共享. 正文 1.Qemu的编译安装 请参考博文用qemu搭建aarch64学习环

用Qemu搭建aarch32学习环境

作者信息 作者: 彭东林 邮箱: [email protected] QQ: 405728433 软件平台 主机: Ubuntu14.04 64位版本 模拟器:Qemu-2.8.0 Linux内核版本: Linux-4.10 Busybox版本:busybox-1.24.2 工具链: arm-none-linux-gnueabi-gcc  (gcc version 4.8.3 20140320) 具备的功能 模拟一个vexpress 双核或者单核的环境,采用NFS跟Host共享一些文件,为了简单

搭建 LNMP+WordPress 环境

搭建 LAMP + WORDPRESS 环境 一.环境介绍 二.必装依赖软件 三.编译安装 Nginx-1.6.3 四.二进制安装 MYSQL-5.5.33 五.编译安装 PHP-5.3.27 六.检测 nginx与mysql nginx与php 是否相连 七.安装 wordpress (分别基于IP,域名访问) 一.环境介绍 搭建这个环境,所有服务都安装在一台虚拟机中,在此介绍一下我的虚拟机 CentOS-6.7-x86_64    保证虚拟机可以正常上网 IP:192.168.6.36 ho

Mac下搭建php开发环境[翻译]

原英文链接:http://www.codeweblog.com/mac-os-x-to-configure-apache-php-mysql/ Mac OS X 内置了Apache 和 PHP,这样使用起来非常方便.本文以Mac OS X 10.6.3为例.主要内容包括: 启动Apache 运行PHP 安装MySQL 使用phpMyAdmin 配置PHP的MCrypt扩展库 设置虚拟主机 启动Apache 有两种方法: 打开"系统设置偏好(System Preferences)" -&

从0开始搭建基于Zookeeper的Spark集群

完全从0搭建Spark集群 备注:这个步骤,只适合用root来搭建,正式环境下应该要有权限类的东西后面另外再进行实验写教程 1.安装各个软件,设置环境变量(每种软件需自己单独下载) export JAVA_HOME=/usr/java/jdk1.8.0_71 export JAVA_BIN=/usr/java/jdk1.8.0_71/bin export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAV