hadoop大数据分析与挖掘实战(读书笔记1)

第一章节是从一个餐厅的角度出发,引出来许许多多的相关概念。

第一个概念就是什么是数据挖掘,这个简单,望文生义就好了。它的名字本身就诠释了它的内涵。

基本任务还是得记一下:

1分类与预测。(有点像量化,股票交易)

2聚类分析()

3关联规则()

4时序模式()

5偏差检测()

关于定义挖掘目标,就是什么菜品推荐,门店开在哪,这些问题。可以不多说。

关于数据取样,没啥好说的。

然后重点在后面,

数据质量分析:有缺失值怎么办?(就是统计一下缺失率什么的,然后删掉或者补值呗)

有异常值怎么办?(识别出来然后删掉呗。怎么识别,用四分位图,异常值小于下四分位-四分位距 或大于上四分位+四分位距)

数据矛盾怎么办?(可能就是数据旧了呗,比如说换了手机号啥的。更新一下就好啦)

就是解决这三个问题。

数据特征分析:分布分析:直方图,分布图,雷达图啥的。

对比分析:折线图呗。还记得文明5里文明得分折线图么?

统计量分析:计算均值,方差,标准差,找中值呗

周期性分析:列出时间表,看看有没有周期性呗。

贡献度分析(帕累托分析):做帕累托图,直方图+折线(各菜品量+贡献线)

相关性分析:散点图,回归线性分析呗

数据预处理:

数据清洗(删除缺失值,或用拉格朗日,牛顿法补缺失值。删除或不处理异常值,分析异常值。)

数据集成(合并数据源,解决数据重复冗余的工作)

数据变换(简单函数变换比如取对数,规划化按比例缩小到[0,1], 连续属性离散化,新属性构造,小波变换)

数据规约(属性规约,就是删属性呗,数值规约,就是减少数据量呗)

挖掘建模与模型评价

挖掘建模就是考虑是哪个问题:

1分类与预测。(有点像量化,股票交易)

2聚类分析()

3关联规则()

4时序模式()

5偏差检测()选取相应的模型。

当然还要用无关的测试集,测试一下来挑战一下模型

时间: 2024-08-11 01:22:21

hadoop大数据分析与挖掘实战(读书笔记1)的相关文章

【Hadoop大数据分析与挖掘实战】(一)----------P19~22

这是一本书的名字,叫做[Hadoop大数据分析与挖掘实战],我从2017.1开始学习 软件版本为Centos6.4 64bit,VMware,Hadoop2.6.0,JDK1.7. 但是这本书的出版时间为2016.1,待到我2017.1使用时,一部分内容已经发生了翻天覆地的变化. 于是我开始写这么一个博客,把这些记录下来. 我使用的软件版本为: 软件 版本 操作系统 CentOS 7 64bit-1611 虚拟机 VMware 12.5.2 Hadoop 2.7.3 JDK 1.8.0 本人大二

【Hadoop大数据分析与挖掘实战】(三)----------P23~25

6.安装Hadoop 1)在Hadoop网站下,下载稳定版的并且已经编译好的二进制包,并解压缩. [[email protected] ~]$ wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz [[email protected] ~]$ tar -zxvf hadoop-2.7.3.tar.gz ~/opt [[email protected] ~]$ ~/opt/hado

基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战  课程学习入口:http://www.xuetuwuyou.com/course/184 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介: 某购物电商网站数据分析平台,分为收集数据.数据分析和数据展示三大层面.其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用. 课程内容 (1)文件收集框架 Flume ①Flume 设计架构.原理(三大组件) ②Flume 初步使

MATLAB数据分析与挖掘实战

这篇是计算机中数据库存储与管理类的优质预售推荐<MATLAB数据分析与挖掘实战>. 多位资深数据挖掘专家10余年实战经验结晶,深入讲解数据挖掘各个环节的各项技术. 编辑推荐 通过10余个真实的案例为10余个行业的数据挖掘提供了解决方案,并提供相关的建模文件和源代码. 前言部分  为什么要写这本书 LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,在目前最炙手可热的25项技能中,数据挖掘人才需求排名第一.那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的.

数据分析学习资料《利用Python进行数据分析第2版》+《Python数据分析与挖掘实战》+《从零开始学Python数据分析与挖掘》

数据分析涉及统计学.线性代数.图形分析绘制.数据挖掘等知识,推荐系统学习电子资料<利用Python进行数据分析第2版>.<Python数据分析与挖掘实战>.<从零开始学Python数据分析与挖掘>电子书和代码测试. <利用Python进行数据分析第2版>电子书代码,每一章之间有递进关系,适合在Python入门<Python编程从入门到实践>电子书之后阅读,本专门针对数据分析领域的.我细致地读了一遍,敲了一遍代码,一开始没有头绪,进展缓慢,后来逐渐

R实战读书笔记四

第三章 图形入门 本章概要 1 创建和保存图形 2 定义符号.线.颜色和坐标轴 3 文本标注 4 掌控图形维数 5 多幅图合在一起 本章所介绍内容概括如下. 一图胜千字,人们从视觉层更易获取和理解信息. 图形工作 R具有非常强大的绘图功能,看下面代码. > attach(mtcars) > plot(wt, mpg) > abline(lm(mpg~wt)) > title("Regression of MPG on Weight") > detach(m

《MATLAB数据分析与挖掘实战》赠书活动

<MATLAB数据分析与挖掘实战>是泰迪科技在数据挖掘领域探索10余年经验总结与华南师大.韩山师院.广东工大.广技师 等高校资深讲师联合倾力打造的巅峰之作.全书以实践和实用为宗旨,深度与广度兼顾,实践与理论并举. 本书特色:本书作者从实践出发,结合大量数据挖掘工程案例及教学经验,以真实案例为主线,深入浅出介绍数据挖掘建 模过程中的有关任务:数据探索.数据预处理.分类与预测.聚类分析.时序预测.关联规则挖掘.智能推荐.偏差检测等. 因此,图书的编排以解决某个应用的挖掘目标为前提,先介绍案例背景提

JAVA并发编程实战 读书笔记(二)对象的共享

<java并发编程实战>读书摘要 birdhack 2015年1月2日 对象的共享 JAVA并发编程实战读书笔记 我们已经知道了同步代码块和同步方法可以确保以原子的方式执行操作,但一种常见的误解是,认为关键之synchronized只能用于实现原子性或者确定临界区.同步还有另一个重要的方面:内存可见性. 1.可见性 为了确保多个线程之间对内存写入操作的可见性,必须使用同步机制. 在没有同步的情况下,编译器.处理器以及运行时等都可能对操作的执行顺序进行一些意想不到的调整.在缺乏足够同步的多线程程

阳宇宸:大数据分析及挖掘

大数据引领我们走向数据智能化时代 [WHAT]大数据   定义 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据时代的背景 20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data. 2011年5月,在"云计算相遇大数据"为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念. 半个世纪