分类预测与回归模型介绍

1.分类与预测

分类与预测是预测问题的两种主要类型；

分类主要是：预测分类标号（离散属性）；

预测主要是：建立连续值函数模型，预测给定自变量对应的因变量的值。

实现过程

（1）分类

　　分类是构造一个分类模型，输入样本属性值，输出对应类别，将每个样本映射到预先定义好的类别。

　　分类模型，建立在已有类标记的数据集上，因此，属于“有监督学习”

（2）预测

　　预测，指建立两种或两种以上变量间相互依赖的函数模型，进行预测或控制

（3）实现过程

　　分类算法：

　　a:学习步，通过归纳分析训练样本集建立分类模型得到分类规则；

　　b:分类步，先用已知的测试样本集，评估分类规则的准确率

　　预测模型：

　　a:通过训练集建立预测属性的函数模型

　　b:在模型通过检验后进行预测或控制

2.常用分类与预测算法

算法名称	算法描述
回归分析	回归分析，确定预测属性与其他变量间相互依赖的定量关系。包括：线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型
决策树	决策树采用自顶向下的递归方式，在内部节点进行属性值比较，并根据不同的属性值从该节点向下分支，最终得到的叶节点是学习划分的类
人工神经网络	人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统，表示神经网络的输入与输出变量之间关系的模型
贝叶斯网络	贝叶斯网络又称信度网络，是Bayes方法的扩展，是目前不确定知识表达和推理领域最有效的理论模型之一
支持向量机	支持向量机是一种通过某种非线性映射，把低维的非线性可分转化为高维的线性可分，在高维空间进行线性分析的算法

3.回归分析介绍

回归分析是通过建立模型研究变量间的相互关系密切程度，结构状态及模型预测的工具，回归分析研究范围大致如下：

4.主要回归模型介绍

回归模型名称	适用条件	算法描述
线性回归	因变量与自变量是线性关系	对一个或多个自变量和因变量间的线性关系进行建模，可用最小二乘法求解模型系数
非线性回归	因变量与自变量间不都是线性关系	对一个或多个自变量和因变量间的非线性关系进行建模。若非线性关系可通过简单的函数变换转化成线性关系，用线性回归的思想求解，若不能转化，用非线性最小二乘法求解
Logistic回归	因变量一般有1和0（是、否）两种取值	广义线性回归模型的特例，利用Logistic函数将因变量的取值范围控制在0、1之间，表示取值为1的概率
岭回归	参与建模的自变量间具有多重共线性	是一种改进最小二乘估计的方法
主成分回归	参与建模的自变量间具有多重共线性	主成分回归是根据主成分分析的思想提出的，是对最小二乘法的改进，它是参数估计的一种有偏估计。可消除自变量间的多重共线性

原文地址：https://www.cnblogs.com/Iceredtea/p/12050028.html

时间： 2024-11-05 21:55:54

分类预测与回归模型介绍的相关文章

逻辑回归模型预测股票涨跌

http://www.cnblogs.com/lafengdatascientist/p/5567038.html 逻辑回归模型预测股票涨跌逻辑回归是一个分类器,其基本思想可以概括为:对于一个二分类(0~1)问题,若P(Y=1/X)>0.5则归为1类,若P(Y=1/X)<0.5,则归为0类. 一.模型概述 1.Sigmoid函数为了具象化前文的基本思想,这里介绍Sigmoid函数: 函数图像如下: 红色的线条,即x=0处将Sigmoid曲线分成了两部分:当 x < 0,y <

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理.决策树创建过程分析了信息混乱度度量Gini指数.连续和离散特征的特殊处理.连续和离散特征共存时函数的特殊处理和后剪枝:用于回归时则介绍了回归树和模型树的原理.适用场景和创建过程.个人认为,回归树和模型树

SPSS数据分析—多分类Logistic回归模型

前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logistic回归模型和无序多分类Logistic回归模型一.有序多分类Logistic回归模型有序多分类Logistic回归模型拟合的基本方法是拟合因变量水平数-1个Logistic回归模型,也称为累积多分类Logit模型,实际上就是将因变量依次分割成两个等级,对这两个等级建立二分类Logistic

数据回归分类预测的基本算法及python实现

数据回归分类预测的基本算法及python实现关于数据的回归和分类以及分析预测.讨论分析几种比较基础的算法,也可以算作是比较简单的机器学习算法. 一． KNN算法邻近算法,可以用来做回归分析也可以用来做分类分析.主要思想是采取K个最为邻近的自变量来求取其应变量的平均值,从而做一个回归或者是分类.一般来说,K取值越大,output的var会更小,但bias相应会变大.反之,则可能会造成过拟合.因此,合理的选取K的值是KNN算法当中一个很重要的步骤. Advantages First

「数据挖掘入门系列」挖掘建模之分类与预测–逻辑回归

拿电商行业举例,经常会遇到以下问题: 如果基于商品的历史销售情况,以及节假日.气候.竞争对手等影响因素,对商品的销量进行趋势预测? 如何预测未来一段时间哪些客户会流失,哪些客户可能会成为VIP用户? 如果预测一种新商品的销售量,以及哪种类型的客户会比较喜欢? 除此之外,运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯,管理人员希望了解下一个月的销售收入等,这些都是分类与预测的日志. 分类和预测是预测问题的两种主要类型. 分类主要是预测分类标号(离散值) 预测主要是建立连续值函数模型挖

Python之逻辑回归模型来预测

建立一个逻辑回归模型来预测一个学生是否被录取. import numpy as np import pandas as pd import matplotlib.pyplot as plt import os path='data'+os.sep+'Logireg_data.txt' pdData=pd.read_csv(path,header=None,names=['Exam1','Exam2','Admitted']) pdData.head() print(pdData.head())

基于分类问题的逻辑回归模型

由于分类问题的输出是0.1这样的离散值,因而回归问题中用到的线性回归模型就不再适用了.对于分类问题,我们建立逻辑回归模型. 针对逻辑回归模型,主要围绕以下几点来讨论. Logistic Regression (逻辑回归) Sigmoid Function (逻辑函数) Decision Boundaries (决策边界) Cost Function (代价函数) 决策边界不是数据集的属性,而是假设本身及其参数的属性.我们不是用训练集来定义的决策边界,我们用训练集来拟合参数θ,一旦有了参数θ就可以

吴裕雄 python 神经网络——TensorFlow实现回归模型训练预测MNIST手写数据集

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("E:\\MNIST_data\\", one_hot=True) #构建回归模型,输入原始真实值(group truth),采用sotfmax函数拟合,并定义损失函数和优化器 #定义回归模型 x = tf.placeholder(tf.float32,

【Python数据挖掘课程】九.回归模型LinearRegression简单分析氧化物数据

这篇文章主要介绍三个知识点,也是我<数据挖掘与分析>课程讲课的内容.同时主要参考学生的课程提交作业内容进行讲述,包括: 1.回归模型及基础知识: 2.UCI数据集: 3.回归模型简单数据分析. 前文推荐: [Python数据挖掘课程]一.安装Python及爬虫入门介绍 [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍 [Python数据挖掘课程]三.Kmeans聚类代码实现.作业及优化