第六章 逻辑斯蒂回归与最大熵模型

书中重要定义及一些理解

  • 先通过介绍逻辑史蒂的分布来引出logist模型
  • 而通过极大似然法来推导模型的参数估计问题
  • 通过对模型参数的似然函数通过求导来得到递归方程
  • 通过公式可以看出logist是对前面的感知机的升级版,感知机的判断方式过于简单。而其梯度下降的时候也将sign的去掉了,否则无法微分。
  • 后通过方程来写出公式,代码如下
import numpy as np
from read_data import get_2_kind_data

def logistic_Regression(tra_x, tra_y, lambdas=0.01, iter=200):
    ‘‘‘
    逻辑斯蒂回归训练过程
    :param trainDataList:训练集
    :param trainLabelList: 标签集
    :param iter: 迭代次数
    :return: 习得的w
    ‘‘‘
    # 按照书本“6.1.2 二项逻辑斯蒂回归模型”中式6.5的规则,将w与b合在一起,
    # 此时x也需要添加一维,数值为1
    tra_x = np.insert(tra_x, len(tra_x[0]), 1, 1)
    w = np.random.rand(len(tra_x[0]))
    for i in range(iter):  # 每次迭代冲遍历一次所有样本,进行随机梯度下降
        for j in range(len(tra_x)):
            # 随机梯度上升部分
            # 在“6.1.3 模型参数估计”一章中给出了似然函数,我们需要极大化似然函数
            # 但是似然函数由于有求和项,并不能直接对w求导得出最优w,所以针对似然函数求和
            # 部分中每一项进行单独地求导w,得到针对该样本的梯度,并进行梯度上升(因为是
            # 要求似然函数的极大值,所以是梯度上升,如果是极小值就梯度下降。梯度上升是
            # 加号,下降是减号)
            # 求和式中每一项单独对w求导结果为:xi * yi - (exp(w * xi) * xi) / (1 + exp(w * xi))
            # 如果对于该求导式有疑问可查看我的博客 www.pkudodo.com
            # 计算w * xi,因为后式中要计算两次该值,为了节约时间这里提前算出
            # 其实也可直接算出exp(wx),为了读者能看得方便一点就这么写了,包括yi和xi都提前列出了
            wx = np.dot(w, tra_x[j].T)
            yi = tra_y[j]
            xi = tra_x[j]
            w += lambdas * (xi * yi - (np.exp(wx) * xi) / (1 + np.exp(wx)))
    return w

def predict(w, x):
    ‘‘‘
    预测标签
    :param w:训练过程中学到的w
    :param x: 要预测的样本
    :return: 预测结果
    ‘‘‘
    #dot为两个向量的点积操作,计算得到w * x
    wx = np.dot(w, x)
    #计算标签为1的概率
    #该公式参考“6.1.2 二项逻辑斯蒂回归模型”中的式6.5
    P1 = np.exp(wx) / (1 + np.exp(wx))
    #如果为1的概率大于0.5,返回1
    if P1 >= 0.5:
        return 1
    #否则返回0
    return 0

def test(testDataList, testLabelList, w):
    ‘‘‘
    验证
    :param testDataList:测试集
    :param testLabelList: 测试集标签
    :param w: 训练过程中学到的w
    :return: 正确率
    ‘‘‘
    #与训练过程一致,先将所有的样本添加一维,值为1,理由请查看训练函数
    testDataList=np.insert(testDataList,len(testDataList[0]),1,1)
    #错误值计数
    errorCnt = 0
    #对于测试集中每一个测试样本进行验证
    for i in range(len(testDataList)):
        #如果标记与预测不一致,错误值加1
        if testLabelList[i] != predict(w, testDataList[i]):
            errorCnt += 1
    #返回准确率
    return 1 - errorCnt / len(testDataList)

if __name__ == ‘__main__‘:
    tra_x, test_x, tra_y, test_y = get_2_kind_data(‘data/Mnist/mnist_train.csv‘)
    tra_x, test_x = tra_x / 255, test_x / 255
    w=logistic_Regression(tra_x, tra_y)
    acc=test(test_x,test_y,w)
    print(acc)

原文地址:https://www.cnblogs.com/fghfghfgh666/p/11000714.html

时间: 2024-08-08 15:23:13

第六章 逻辑斯蒂回归与最大熵模型的相关文章

逻辑斯蒂回归

1,逻辑斯蒂回归问题有一组病人的数据,我们需要预测他们在一段时间后患上心脏病的“可能性”,就是我们要考虑的问题.通过二值分类,我们仅仅能够预测病人是否会患上心脏病,不同于此的是,现在我们还关心患病的可能性,即 f(x) = P(+1|x),取值范围是区间 [0,1]. 然而,我们能够获取的训练数据却与二值分类完全一样,x 是病人的基本属性,y 是+1(患心脏病)或 -1(没有患心脏病).输入数据并没有告诉我们有关“概率” 的信息. 在二值分类中,我们通过w*x 得到一个"score"

梯度下降法解逻辑斯蒂回归

梯度下降法解逻辑斯蒂回归 本文是Andrew Ng在Coursera的机器学习课程的笔记. Logistic回归属于分类模型.回顾线性回归,输出的是连续的实数,而Logistic回归输出的是[0,1]区间的概率值,通过概率值来判断因变量应该是1还是0.因此,虽然名字中带着"回归"(输出范围常为连续实数),但Logistic回归属于分类模型(输出范围为一组离散值构成的集合). 整体步骤 假如我们的自变量是"数学课和英语课的成绩",x={x1,x2},因变量是"

用二项逻辑斯蒂回归解决二分类问题

逻辑斯蒂回归: 逻辑斯蒂回归是统计学习中的经典分类方法,属于对数线性模型.logistic回归的因变量可以是二分类的, 也可以是多分类的 基本原理 logistic 分布 折X是连续的随机变量,X服从logistic分布是指X具有下列分布函数和密度函数: 其中为位置参数,为形状参数.与图像如下,其中分布函数是以为中心对阵,越小曲线变化越快 二项logistic回归模型: 二项logistic回归模型如下: 其中是输入,输出,W称为权值向量,b称为偏置, 是w和x的内积 参数估计 ? 假设: ?

逻辑斯蒂回归(logisic regression)和SVM的异同

逻辑斯蒂回归主要用于二分类,推广到多分类的话是类似于softmax分类.求 上述问题可以通过最大化似然函数求解. 上述问题可以采用最小化logloss进行求解. 一般地,我们还需要给目标函数加上正则项,参数w加上l1或者l2范数. LR适合大规模数据,数据量太小的话可能会欠拟合(考虑到数据通常比较稀疏).另外,我们可以将连续型属性转化成离散型属性,这样可以提升模型的鲁棒性,防止模型过拟合. LR和SVM的异同点 相同点 1.他们都是分类算法,是监督学习算法. 2.如果不考虑核函数,LR和SVM都

《统计学习方法》第六章,逻辑斯蒂回归

? 使用逻辑地模型来进行分类,可以算出每个测试样本分属于每个类别的概率 ● 二分类代码 1 import numpy as np 2 import matplotlib.pyplot as plt 3 from mpl_toolkits.mplot3d import Axes3D 4 from mpl_toolkits.mplot3d.art3d import Poly3DCollection 5 from matplotlib.patches import Rectangle 6 7 data

逻辑斯蒂回归(Logistic Regression)

逻辑回归名字比较古怪,看上去是回归,却是一个简单的二分类模型. 逻辑回归的目标函数是如下形式: 其中x是features,θ是feature的权重,σ是sigmoid函数.将θ0视为θ0*x0(x0取值为常量1),那么 这里我们取阈值为0.5,那么二分类的判别公式为: 下面说一下参数θ的求解: 为啥子这样去损失函数呢? 当y=1的时候,显然hθ(x)越接近1我们的预测越靠谱:y=0时同理.所以应该在y=1时,使损失韩式-log(hθ(x))越小越好,y=0时,同样使损失函数-log(1-hθ(x

逻辑斯蒂回归模型

http://blog.csdn.net/hechenghai/article/details/46817031 主要参照统计学习方法.机器学习实战来学习.下文作为参考. 第一节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最小化所有的样本预测值Y与真实值y‘的误差来求得模型参数.我们看到这里的模型的值Y是样本X各个维度的Xi的线性叠加,是线性的. Y=WX (假设W>0),Y的大小是随

[转]逻辑斯蒂回归 via python

# -*- coding:UTF-8 -*-import numpydef loadDataSet(): return dataMat,labelMat def sigmoid(inX): return 1.0/(1+numpy.exp(-inX)) def gradAscent(dataMatIn,classLabels): dataMatrix=numpy.mat(damaMatIn) labelMat=numpy.mat(classLabels).transpose() #上升梯度 alp

逻辑斯蒂和最大熵-李航

1.逻辑斯蒂分布 sigmoid 曲线 二项逻辑斯蒂回归模型,实际上是二项判别模型. 基于逻辑斯蒂的似然函数等于每个取值的概率之积.对数似然是对他们取log 多项逻辑斯蒂回归,实际是二项的扩展. 2.最大熵模型 由5.2.2节的熵模型.使我们需要的公式. 所谓最大熵,是指83页定义的条件熵的最大熵. 我们知道这个熵模型实际上是带负号的,负号变边,将求最大问题变成求最小问题,即凸函数问题. A.引进拉格朗日问题,将该问题变换为拉格朗日问题,由对偶性质,得到求最小值的最大值,最小值可由求导得到,最大