第五章:挖掘建模【未完,待续】

5.1 分类与预测

分类主要是预测分类标号(离散属性);而与预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值;

5.1.1 实现过程

分类 --- 构造一个分类模型,输入样本的属性值,输出对应的类别。分类建立在已有类标记的数据集上。有监督的学习

预测 --- 建立两种或两种以上变量间相互依赖的函数模型,然后进行预测。

5.1.2 常用的分类与预测方法

回归分析;决策树; 人工神经网络; 贝叶斯网络; 支持向量机

5.1.3 回归分析

主要的回归模型:线性回归; 非线性回归; Logistic回归; 岭回归; 主成分回归;

线性回归: 可用最小二乘法求模型系数;【适用范围:因变量与自变量都是线性关系

非线性回归: 如果非线性关系可用通过简单的函数转换为线性关系,用线性回归思想求解;如果不能转换,用非线性最小二乘方法求解;【适用范围:因变量与自变量不都是线性关系

Logistic回归:广义线性回归模型的特例, 利用Logistic函数将因变量的取值范围控制在0和1直接,表示取值为1的概率;【适用范围:因变量一般有1和0(是,非)两种取值

岭回归:改进的最小而成估计的方法;【适用范围:参与建模的自变量间之间具有多重共线性

主成分回归:最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间之间具有多重共线性;【适用范围:参与建模的自变量间之间具有多重共线性

5.1.4 决策树

5.1.5 人工神经网络

5.1.6 分类与预测算法评估:

评估指标;

绝对误差与相对误差;   平均绝对误差;       均方误差 ;       均方根误差 ;       平均绝对百分误差

Kappa统计:用于比较两个或多个观测者对同一事物,或者观测者对同一事物的两次多多次观测结果是否一致。取值范围【-1, 1】

识别准确度: Accuracy = (TP + FN) /( TP + TN + FP + FN) *100%  【注: TP(true positives):  正确的肯定 :表示正确的肯定的分类数】

           识别精确度: Precision = TP / (TP + FP)  *100%                                  【注:  FP(false positives): 错误的肯定:表示错误的肯定的分类数】

           反馈率:       Recall = TP /( TP + TN ) *100%                                        【注:  FN(false negatives): 错误的否定:表示错误的否定的分类数】

           ROC曲线

           混淆矩阵

5.1.7 Python分类预测模型特点

Python 步骤:

建立一个对象 ---- 通过fit()方法对模型进行训练 ---- 通过predict()方法预测结果 ---- 通过score()方法对模型评估

5.2 聚类分析

5.2.1 常用聚类方法:

划分(分裂)方法;层次分析方法;基于密度的方法;基于网格的方法;基于模型的方法

5.2.2 K-means聚类方法:

5.2.3 聚类分析算法评估:

5.2.4 Python 主要聚类分析方法:

Python 步骤:

先用对应的函数建立模型 ---- 利用.fit()方法对模型进行训练 ---- 利用.label_方法给出样本标签/或用.predict()方法预测新的输入的标签

5.3 关联规则

5.3.1 常用的关联规则算法

5.3.2 Apriori算法

5.4 时序模式

5.4.1 时间序列算法

5.4.2 时间序列的预处理

5.4.3 平稳时间序列分析

5.4.4 非平稳时间序列分析

5.4.5 Python主要时序模式算法

5.5 离散点检测

5.5.1 离群点检查方法

5.5.2 基于模型的离群点检查方法

5.5.3 基于聚类的离群点检查方法

时间: 2024-10-08 03:04:49

第五章:挖掘建模【未完,待续】的相关文章

Python核心编程(第二版) 第二章习题答案 未完待续

2-2.程序输出.阅读下面的Python脚本.#!/usr/bin/env python1 + 2 * 4(a)你认为这段脚本是用来做什么的?(b)你认为这段脚本会输出什么?(c)输入以上代码,并保存为脚本,然后运行它,它所做的与你的预期一样吗?为什么一样/不一样?(d)这段代码单独执行和在交互解释器中执行有何不同?试一下,然后写出结果.(e)如何改进这个脚本,以便它能和你想象的一样工作?答:(a)这段脚本是用来计算表达式的值(b)脚本会输出9(c)保存为脚本,运行后没有输出.和自己预期不一样.

python核心编程第二版 第二章练习题解答 未完待续

有人可能会想,连2-1和2-2这样的题目都回答,够无聊的啊.因为现在处于并长期处于成为大师的第一阶段------守的阶段 2-1 >>> a= '123' >>> a '123' >>> print (a) 123 a是字符串123,如果格式化输出有问题报如下错误: >>> print ('a is %d'% a) Traceback (most recent call last): File "<stdin>&

一篇文章让Oracle程序猿学会MySql【未完待续】

一篇文章让Oracle DB学会MySql[未完待续] 随笔前言: 本篇文章是针对已经能够熟练使用Oracle数据库的DB所写的快速学会MySql,为什么敢这么说,是因为本人认为Oracle在功能性方面和难度方面都比MySql要高一些,所以精通Oracle的DB在学习MySql的时候,没有必要从头到尾再去搞一遍,只需要掌握两者的用法区别即可.故本篇文章就针对Oracle和MySql的区别来把MySql的知识掌握住,在文章中,实例都是MySql环境下的实例,而Oracle可能知识一句话来概括,所以

第二章-第二题(练习使用git的add/commit/push/pull/fetch/clone等基本命令)-By郭青云(未完待续)

题目描述: 每人自己建立一个HelloWorld项目,练习使用git的add/commit/push/pull/fetch/clone等基本命令.比较项目的新旧版本的差别. 使用步骤: 未完待续...... 参考文件:http://blog.csdn.net/u012575819/article/details/50553501

把握linux内核设计思想系列(未完待续......)

[版权声明:尊重原创,转载请保留出处:blog.csdn.net/shallnet,文章仅供学习交流,请勿用于商业用途] 把握linux内核设计思想(一):系统调用 把握linux内核设计思想(二):硬中断及中断处理 把握linux内核设计思想(三):下半部机制之软中断 把握linux内核设计思想(四):下半部机制之tasklet 把握linux内核设计思想(五):下半部机制之工作队列及几种机制的选择 把握linux内核设计思想(六):内核时钟中断 把握linux内核设计思想(七):内核定时器和

数据结构与算法之--高级排序:shell排序和快速排序【未完待续】

高级排序比简单排序要快的多,简单排序的时间复杂度是O(N^2),希尔(shell)排序的是O(N*(logN)^2),而快速排序是O(N*logN). 说明:下面以int数组的从小到大排序为例. 希尔(shell)排序 希尔排序是基于插入排序的,首先回顾一下插入排序,假设插入是从左向右执行的,待插入元素的左边是有序的,且假如待插入元素比左边的都小,就需要挪动左边的所有元素,如下图所示: ==> 图1和图2:插入右边的temp柱需要outer标记位左边的五个柱子都向右挪动 如图3所示,相比插入排序

Exp2 后门原理与实践(未完待续)

Exp2 后门原理与实践 实验环境 攻击机 kali 4.14(64位) (IP: 10.0.2.6/24) 靶机 ubuntu 16.04(32位) (IP: 10.0.2.4/24) windows 7 sp1(64位) (IP: 10.0.2.7/24) nc/ncat的使用 nc(全称是netcat)是一个用于TCP/UDP连接和监听的linux工具,有着网络工具中的"瑞士军刀"的美誉.nc的实现版本大致有两种,一种是带有-e或-c 选项可以直接给出执行命令,另一种不支持-e选

whatweb.rb 未完待续

#!/usr/bin/env ruby #表示ruby的执行环境 =begin # ruby中用=begin来表示注释的开始 .$$$ $. .$$$ $. $$$$ $$. .$$$ $$$ .$$$$$$. .$$$$$$$$$$. $$$$ $$. .$$$$$$$. .$$$$$$. $ $$ $$$ $ $$ $$$ $ $$$$$$. $$$$$ $$$$$$ $ $$ $$$ $ $$ $$ $ $$$$$$. $ `$ $$$ $ `$ $$$ $ `$ $$$ $$' $ `$

[译]App Framework 2.1 (1)之 Quickstart (未完待续)

最近有移动App项目,选择了 Hybrid 的框架Cordova  和  App Framework 框架开发. 本来应该从配置循序渐进开始写的,但由于上班时间太忙,这段时间抽不出空来,只能根据心情和兴趣,想到哪写到哪,前面的部分以后慢慢补上. App Framework 前生是是叫 jqMobi 注意大家不要和 jQuery Mobile 混淆了,它们是两个不同的框架,一开始我还真混淆了0.01秒. 这里我先翻译一下Quickstart 部分,一是自己工作上用的上,二是也想顺便练练英文,最关键

git个人使用总结 —— idea命令行、撤销commit (未完待续)

近期在使用git,最开始在idea界面操作,后来要求用命令行.刚开始还不是很习惯,感觉很麻烦,用了几天后感觉爽极了! 其实git的命令也不是很多,熟悉一段时间就差不多能顺利使用了.使用过程中遇到了各种各样的问题,有些小问题就在这里集中总结一下. 1.idea命令行.git安装后就自带终端git bash,使用起来很方便.但是用idea开发,开发后还要在相应文件夹下打开git bash很麻烦.其实idea也带有终端terminal,在最下方可以找到,在这里就可以执行命令.但是如果是默认方式安装的g