逻辑回归实战

开始，首先下载数据ex4Data.zip

假设该数据集代表着一所高中学生中40名被大学录取，而另外40名没有被大学录取。

每一个训练样例(x⁽ⁱ⁾,y⁽ⁱ⁾)包含一个学生的两科标准考试成绩以及是否被录取的标签。

现在需要建立一个分类模型，要求根据学生的两科考试成绩，来判断学生被录取的概率。

画出数据：

x = load(‘ex4x.dat‘);
y = load(‘ex4y.dat‘);

[m, n] = size(x);

% 插入项。因为有一个参数是常数项
x = [ones(m, 1), x];

figure
pos = find(y); neg = find(y == 0);
plot(x(pos, 2), x(pos,3), ‘+‘)
hold on
plot(x(neg, 2), x(neg, 3), ‘o‘)
hold on
xlabel(‘Exam 1 score‘)
ylabel(‘Exam 2 score‘)

牛顿法

假设函数：

损失函数：

参数更新规则：

（t是迭代次数）

梯度和海森矩阵：

全部Matlab代码如下（参考NG的机器学习教程）：

clear all; close all; clc

x = load(‘ex4x.dat‘);
y = load(‘ex4y.dat‘);

[m, n] = size(x);

% Add intercept term to x
x = [ones(m, 1), x]; 

% Plot the training data
% Use different markers for positives and negatives
figure
pos = find(y); neg = find(y == 0);
plot(x(pos, 2), x(pos,3), ‘+‘)
hold on
plot(x(neg, 2), x(neg, 3), ‘o‘)
hold on
xlabel(‘Exam 1 score‘)
ylabel(‘Exam 2 score‘)

% Initialize fitting parameters
theta = zeros(n+1, 1);

% Define the sigmoid function
g = inline(‘1.0 ./ (1.0 + exp(-z))‘); 

% Newton‘s method
MAX_ITR = 7;
J = zeros(MAX_ITR, 1);

for i = 1:MAX_ITR
    % Calculate the hypothesis function
    z = x * theta;
    h = g(z);

    % Calculate gradient and hessian.
    % The formulas below are equivalent to the summation formulas
    % given in the lecture videos.
    grad = (1/m).*x‘ * (h-y);
    H = (1/m).*x‘ * diag(h) * diag(1-h) * x;

    % Calculate J (for testing convergence)
    J(i) =(1/m)*sum(-y.*log(h) - (1-y).*log(1-h));

    theta = theta - H\grad;
end
% Display theta
theta

% Calculate the probability that a student with
% Score 20 on exam 1 and score 80 on exam 2
% will not be admitted
prob = 1 - g([1, 20, 80]*theta)

% Plot Newton‘s method result
% Only need 2 points to define a line, so choose two endpoints
plot_x = [min(x(:,2))-2,  max(x(:,2))+2];
% Calculate the decision boundary line
plot_y = (-1./theta(3)).*(theta(2).*plot_x +theta(1));
plot(plot_x, plot_y)
legend(‘Admitted‘, ‘Not admitted‘, ‘Decision Boundary‘)
hold off

% Plot J
figure
plot(0:MAX_ITR-1, J, ‘o--‘, ‘MarkerFaceColor‘, ‘r‘, ‘MarkerSize‘, 8)
xlabel(‘Iteration‘); ylabel(‘J‘)
% Display J
J

时间： 2024-07-31 04:52:49

逻辑回归实战的相关文章

sklearn逻辑回归实战

目录题目要求 ex2data1.txt处理方案一:无多项式特征方案二:引入多项式特征 ex2data2.txt处理两份数据 ex2data1.txt ex2data2.txt 题目要求根据学生两门课的成绩和是否入学的数据,预测学生能否顺利入学:利用ex2data1.txt和ex2data2.txt中的数据,进行逻辑回归和预测. 数据放在最后边. ex2data1.txt处理作散点图可知,决策大致符合线性关系,但还是有弯曲(非线性),用线性效果并不好,因此可用两种方案:方案一,无多项式

机器学习实战-逻辑回归

什么是回归? 假设现在有些数据点,我用直线对这些点进行拟合(该线叫做最佳拟合直线),这个拟合的过程就叫做回归. Logistic回归? 这里,Logistic回归进行分类的主要思想:根据现有数据对分类的边界线建立回归公式,以此边界线进行分类.这里的回归指的是最佳拟合,就是要找到边界线的回归公式的最佳拟合的参数集.训练时使用最优化算法寻找最佳拟合参数. 基于Logistic回归和Sigmoid函数的分类对于边界线建立的回归函数,能够接受所有的输入然后预测出类别.例如,对于二分类的情况下,上述函数

《机器学习实战》笔记——逻辑回归

书上没有给具体的逻辑回归的课程,就直接上了代码,这很不好! 可以参考ng的课程,或者看这篇博文:http://blog.csdn.net/wlmnzf/article/details/72855610?utm_source=itdadao 过程还是比较浅显易懂的,就没怎么备注了. 1 # _*_ coding:utf-8 _*_ 2 3 from numpy import * 4 def loadDataSet(): 5 dataMat = [] 6 labelMat = [] 7 fr = o

机器学习python实战----逻辑回归

当看到这部分内容的时候我是激动的,因为它终于能跟我之前学习的理论内容联系起来了,这部分内容就是对之前逻辑回归理论部分的代码实现,所以如果有不甚理解的内容可以返回对照着理论部分来理解,下面我们进入主题----logistic regression 一.sigmoid函数在之前的理论部分我们知道,如果我们需要对某物进行二分类,那么我们希望输出函数的值在区间[0,1],于是我们引入了sigmoid函数.函数的形式为. 曲线图根据函数表达式,我们可以用代码来表示 def sigmoid(Inx):

逻辑回归的实现(LogicalRegression)

1.背景知识在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法. (1)回归先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归.我们通过大量的数据找出这条线,并拟合出这条线的表达式,再有数据,我们就以这条线为区分来实现分类.下图是我画的一个数据集的两组数据,中间有一条区分两组数据的线. (2)sigmoid函数我们看到了上图中两组数据的划分,那么我们怎

【机器学习】逻辑回归（Logistic Regression）

注:最近开始学习<人工智能>选修课,老师提纲挈领的介绍了一番,听完课只了解了个大概,剩下的细节只能自己继续摸索. 从本质上讲:机器学习就是一个模型对外界的刺激(训练样本)做出反应,趋利避害(评价标准). 1. 什么是逻辑回归? 许多人对线性回归都比较熟悉,但知道逻辑回归的人可能就要少的多.从大的类别上来说,逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类. 在线性回归模型中,输出一般是连续的,例如$$y = f(x) = ax + b$$,对于每一个输入的x,都有一个对应的y输出.模

机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）

机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 这节学习的是逻辑回归(Logistic Regression),也算进入了比较正统的机器学习算法.啥叫正统呢?我概念里面机器学习算法一般是这样一个步骤: 1)对于一个问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等

Python数据挖掘—回归—逻辑回归

概念针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归优点:算法易于实现和部署,执行效率和准确度高缺点:离散型的自变量数据需要通过生成虚拟变量的方式来使用在线性回归中,因变量是连续性变量,那么线性回归能根据因变量和自变量存在的线性关系来构造回归方程,因变量变成分类变量后就不存在这种关系了,需通过对数变换来进行处理(Sigmoid函数) 步骤: 1.读取数据: import pandas from pandas import read_csv data=read_csv

Python逻辑回归原理及实际案例应用

前言上面我们介绍了线性回归, 岭回归, Lasso回归, 今天我们来看看另外一种模型-"逻辑回归". 虽然它有"回归"一词, 但解决的却是分类问题目录 1. 逻辑回归 2. 优缺点及优化问题 3. 实际案例应用 4. 总结正文在前面所介绍的线性回归, 岭回归和Lasso回归这三种回归模型中, 其输出变量均为连续型, 比如常见的线性回归模型为: 其写成矩阵形式为: 现在这里的输出为连续型变量, 但是实际中会有"输出为离散型变量"这样的需求,