10 逻辑回归

分类算法-逻辑回归

应用场景（二分类）

广告点击率（典型的二分类问题，点了或者没点，也能得出）
是否为垃圾邮件
是否患病
金融诈骗
虚假账号

逻辑回归定义

逻辑回归：是一种分类算法，使用线性回归的式子作为输入，通过sigmoid函数转换为概率问题。
sigmoid函数：1/（1+e^-x), 将输入值x,映射到（0，1), 与概率值联系起来
逻辑回归公式

线性回归的输入 --> sigmoid 转换 -->分类 [0,1] 概率值，阈值一般取0.5

逻辑回归的损失函数、优化

与线性回归原理相同，但由于是分类问题，损失函数不一样，只能通过梯度下降求解
对数似然损失函数：

y =1，目标值为1 ，预测值为1的概率是100%，则损失最小（接近0）
注：哪一类别数据量小，则哪一种特征为正例1

目标值是0类，预测1类的概率越大，则损失越大。（预测属于0的概率越大越好）
只判断属于一个类别的概率，这里是属于1的概率，如果属于1的概率较小（小于阈值），则非1，即为0。

完整损失函数举例：（损失越小，精度越高）

损失函数

均方误差

只有一个最小值，不存在多个局部最低点

对数似然函数

多个局部最小值，使用梯度下降时，会存在问题，尽管没有全局最低点，但效果还可以。
改善方法：
- 随机初始化，多次比较最小值结果
- 求解过程中，调整学习率

逻辑回归案例

良/恶性乳腺癌数据

原始数据的下载地址：
https://archive.ics.uci.edu/ml/machine-learning-databases/
数据描述
（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤
相关的医学特征，最后一列表示肿瘤类型的数值。
（2）包含16个缺失值，用”?”标出。

from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np

def logistic():
    """
    逻辑回归做二分类癌症预测
    :return: None
    """
    # 1.读取数据
    # 构造列标签名字
    column = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
    data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', names=column)
    print(data)

    # 2.缺失值处理
    data = data.replace(to_replace='?', value=np.nan)
    data = data.dropna() # 直接删除nan

    # 3. 进行数据分割
    x_train, x_test, y_train, y_test = train_test_split(data[column[1:10]], data[column[10]], test_size=0.25) # 取特征值，目标值

    # 4.标准化处理 (分类问题，目标值不做标准化）
    std = StandardScaler()
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    # 5. 逻辑回归预测
    lg = LogisticRegression(C=1.0)
    lg.fit(x_train, y_train) # 训练lg模型
    print(lg.coef_)
    y_predict = lg.predict(x_test)
    print('准确率：', lg.score(x_test, y_test))
    print('召回率:',classification_report(y_test, y_predict, labels=[2,4], target_names=['良性','恶性']))

if __name__ == '__main__':
    logistic()

逻辑回归总结

应用：广告点击率预测，是否患病，金融诈骗，是否为虚假账号（带有概率的二分类问题）
优点：适合需要得到一个分类概率的场景，简单，速度快
缺点：不方便处理多分类问题 1 vs 1, 1 vs

生成模型与判别模型比较

有没有先验概率 ( P(C) ) 需不需要总结历史数据

原文地址：https://www.cnblogs.com/hp-lake/p/11979505.html

时间： 2024-11-04 20:35:11

10 逻辑回归的相关文章

逻辑回归 & 递归下降算法

0)递归下降算法的目的是通过不断迭代,逼近函数的最小值,从而求出参数 1)逻辑回归实际上是一个分类器, 利用已有的样本来训练 sigmoid 函数 (1) sigmoid 函数的一般形式: (2) sigmoid 函数的图形: (3) 预测函数 : 比如说有一个样本x, 他有10个 features : ,根据可以得到他们的预测函数的值: 那么就可以知道样本X 的归属 : 是一类, 否则是另一类. 注意:这里假设线性边界情况 : 即形如 , 而不会是这种.而且推导也是基于这个假设的.

用Python开始机器学习（7：逻辑回归分类） --好！！

from : http://blog.csdn.net/lsldd/article/details/41551797 在本系列文章中提到过用Python开始机器学习(3:数据拟合与广义线性回归)中提到过回归算法来进行数值预测.逻辑回归算法本质还是回归,只是其引入了逻辑函数来帮助其分类.实践发现,逻辑回归在文本分类领域表现的也很优秀.现在让我们来一探究竟. 1.逻辑函数假设数据集有n个独立的特征,x1到xn为样本的n个特征.常规的回归算法的目标是拟合出一个多项式函数,使得预测值与真实值的误差最小

Matlab实现线性回归和逻辑回归: Linear Regression & Logistic Regression

原文:http://blog.csdn.net/abcjennifer/article/details/7732417 本文为Maching Learning 栏目补充内容,为上几章中所提到单参数线性回归.多参数线性回归和逻辑回归的总结版.旨在帮助大家更好地理解回归,所以我在Matlab中分别对他们予以实现,在本文中由易到难地逐个介绍. 本讲内容: Matlab 实现各种回归函数 ========================= 基本模型 Y=θ0+θ1X1型---线性回归(直线拟合) 解决

《机器学习实战》笔记——逻辑回归

书上没有给具体的逻辑回归的课程,就直接上了代码,这很不好! 可以参考ng的课程,或者看这篇博文:http://blog.csdn.net/wlmnzf/article/details/72855610?utm_source=itdadao 过程还是比较浅显易懂的,就没怎么备注了. 1 # _*_ coding:utf-8 _*_ 2 3 from numpy import * 4 def loadDataSet(): 5 dataMat = [] 6 labelMat = [] 7 fr = o

逻辑回归(logistic-regression)之梯度下降法详解

引言逻辑回归常用于预测疾病发生的概率,例如因变量是是否恶性肿瘤,自变量是肿瘤的大小.位置.硬度.患者性别.年龄.职业等等(很多文章里举了这个例子,但现代医学发达,可以通过病理检查,即获取标本放到显微镜下观察是否恶变来判断):广告界中也常用于预测点击率或者转化率(cvr/ctr),例如因变量是是否点击,自变量是物料的长.宽.广告的位置.类型.用户的性别.爱好等等. 本章主要介绍逻辑回归算法推导.梯度下降法求最优值的推导及spark的源码实现. 常规方法一般回归问题的步骤是: 1. 寻找预测函数

线性回归，逻辑回归的学习（包含最小二乘法及极大似然函数等）

博文参考了以下两位博主的文章:http://blog.csdn.net/lu597203933/article/details/45032607,http://blog.csdn.net/viewcode/article/details/8794401 回归问题的前提: 1) 收集的数据 2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数.然后利用这个模型去预测/分类新的数据. 1. 线性回归假设特征和结果都满足线性.即不大于一次方.这个是针对收集的数据

机器学习：逻辑回归

************************************** 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的<机器学习>课程笔记.博主深感学过课程后,不进行总结很容易遗忘,根据课程加上自己对不明白问题的补充遂有此系列博客.本系列博客包括线性回归.逻辑回归.神经网络.机器学习的应用和系统设计.支持向量机.聚类.将维.异常检测.推荐系统及大规模机器学习等内容. ************************************** 逻辑回归分类(C

逻辑回归（LR）总结复习

摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合内容: 1.算法概述最基本的LR分类器适合于对两分类(类0,类1)目标进行分类:这个模型以样本特征的线性组合sigma(theta * Xi)作为自变量,使用logistic函数将自变量映射到(0,1)上. 其中logistic函数(sigmoid函数为): 函数图形为: 从而得到LR的模型函数为:,其中待定. 2.算法推导建立的似然函数: 对上述函数求对数: 做下函数变换: 通过梯度下

机器学习二逻辑回归作业

作业在这,http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的. 57维特征,2分类问题.采用逻辑回归方法.但是上述数据集在kaggle中没法下载,于是只能用替代的方法了,下了breast-cancer-wisconsin数据集. 链接在这http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin

10 逻辑回归

10 逻辑回归

分类算法-逻辑回归

应用场景 （二分类）

逻辑回归定义

损失函数

均方误差

对数似然函数

逻辑回归案例

逻辑回归总结

生成模型与判别模型比较

10 逻辑回归的相关文章

应用场景（二分类）