第一章·导论

数据挖掘主要有两大类:

  • 预测任务:根据其他属性的值,预测特定属性的值
  • 描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)

4种主要的数据挖掘任务:

  • 预测建模:
  1. 分类:用于预测离散的目标变量(如预测web与用户是否会在网上买书,预测花类型)。
  2. 回归:用于预测连续的目标变量(如预测未来股票价格)。
  • 关联分析:用来发现描述数据中强关联特征的模式。(如找事物间联系,通过购物篮数据发现买尿布的顾客多半会买牛奶)。
  • 聚类分析:发现紧密相关的观测值组群,每个族群中的每个观测值都尽可能相同(如对顾客进行分类)
  • 异常检测:识别特征显著不同于其他数据的观测值。这样的观测值被称为异常值或者离群点,目标是发现真正异常点,而避免将正确对象标注为异常点(如检验欺诈,寻找疾病的不寻常模式)

例:信用卡欺诈检验:比如合法交易需要一系列步骤,而非法交易步骤相对简单,可以通过步骤比较,如果和合法交易步骤差距很大就有可能是非法交易。

原文地址:https://www.cnblogs.com/windsWater/p/9959868.html

时间: 2024-08-30 16:57:59

第一章·导论的相关文章

管理经济学-第一章导论

一.管理经济学的研究对象 管理经济学:一个企业组织 能够在一定的经济环境中,在面临的各种约束下,最有效的达到自 己既定目标的科学:管理经济学是一门研究企业决策实践的应用科学 1.管理经济学的定义 管理经济学:运用经济理论和决策科学的分析工具,使一个企业组织 能够在一定的经济环境中,在面临的各种约束下,最有效的达到自己既定目标的科学. 定义的两个要点:[选择题] 研究对象:资源配置有关的管理决策问题. 分析工具:经济理论和决策科学 管理决策问题: 经济理论: 微观经济学 .宏观经济学 决策科学:

算法导论 第一章

算法导论 第一章,为了让自己基本功更加的扎实,从今天起开始学习算法导论. 我以一位学长的博客为学习的参考资料,开始我的学习吧! 附上一句话: Having a solid base of algorithm knowledge and technique is one characteristic that separates the truly skilled programmers from the novices. 是否具有扎实的算法知识和技术基础,是区分真正熟练的程序员与新手的一项重要特

Java 线程第三版 第一章Thread导论、 第二章Thread的创建与管理读书笔记

第一章 Thread导论 为何要用Thread ? 非阻塞I/O I/O多路技术 轮询(polling) 信号 警告(Alarm)和定时器(Timer) 独立的任务(Task) 并行算法 第二章 Thread的创建与管理 一.什么是Thread ? Thread是所在主机执行的应用程序任务(task). 只有一个线程的例子: public class Factorial { public static void main(String[] args) { int n = 5; System.ou

SystemVerilog搭建测试平台---第一章:验证导论(续)

本想第一章就将导论一起写完,但是总觉得对一些重要的概念还是想以小篇幅的形式突出重点写出来,所以接下来的这篇文章就是对上篇文章的延续. 1.6 随机化对象 以一个初入验证领域的人来讲,所谓的随机化就是数据字段,这种激励最容易创建---只需要调用$random()函数即可.但是这种随机数据在找漏洞方面的回报是很小的.使用这种随机数据找到的漏洞一般都是在数据路径上,很可能还都是比特级的错误.其实我们更加需要找到一些控制逻辑上的漏洞.比如下面几种类型: 设备和环境配置 很多测试只使用了仅仅经过复位的设计

《算法导论》读书笔记--第一章

第一章 算法在计算中的作用 一.什么是算法?为什么算法值得研究?相对于计算机中使用的其他技术来说算法的作用是什么? 算法就是任何良定义的计算过程,该过程取某个值或者值的集合作为输入并产生某个值或者值的集合作为输出.这样算法就是把输入转换成输出的计算步骤的一个序列. 若对每个输入实例算法都以正确的输出停机,则称该算法是正确的,并称正确的算法解决了给定的计算问题.注意:不正确的算法只要其错误率可控时可能是有用的,但是我们通常只关心正确的算法. 数据结构是一种存储和组织数据的方式,旨在便于访问和修改.

《算法导论》学习笔记第一章(算法在计算中的作用)

第一章主要讲了一些概念,什么是算法,为什么算法值得研究. 印象比较深的是章节的最后一句,是否具有算法知识与技术的坚实基础是区分真正熟练的程序员与初学者的一个特征.使用现代计算技术,如果你对算法懂得不多,你也可以完成一些任务,但是,如果有一个好的算法背景,那么你可以做的事情就多得多. Having a solid base of algorithmic knowledge and technique is one characteristic that separates the truly sk

[读书笔记]算法(Sedgewick著)·第一章(1)

到家放松之后就开始学习算法了,手里拿的是拿的是一本Robert Sedgewick的橙皮书<算法(第四版)>的.这本书与导论那本书的不同之处在于轻数学思想.重实现,也就是说这是一本很不错的基础编程书.拿来做书中的练习还是蛮不错的,封面说有50种算法哦.思维导图如下,就且学且更新吧. 1.基本编程模型 第一章开始讲述用程序实现算法的优点:程序是对算法精确.优雅和完全的描述:可以通过运行程序来学习算法的各种性质:可以在应用程序中直接使用这些算法.还有这种学习算法的缺点缺点:分离思想和实现细节的困难

Java 螺纹第三版 第一章Thread介绍、 第二章Thread创建和管理学习笔记

第一章 Thread导论 为何要用Thread ? 非堵塞I/O I/O多路技术 轮询(polling) 信号 警告(Alarm)和定时器(Timer) 独立的任务(Task) 并行算法 第二章 Thread的创建与管理 一.什么是Thread ? Thread是所在主机运行的应用程序任务(task). 仅仅有一个线程的样例: public class Factorial { public static void main(String[] args) { int n = 5; System.o

C#认证第一章1 题 11题

C#第一章第一题 C#认证第一章  11题