logistic损失函数的解释

logistic回归的   P(y|x):预期输出为y时,输入为x的概率为p(y|x)=y~^y(1-y~)^(1-y)-------全面概括y=0|1的情况

loss function()= - log(p(y|x)); 可以根据loss function定义得到结果。

J(w,b)=-1/m求和loss--->求它的最小值用最大似然估计模型时,可以去掉符号。来进行估计

时间: 2024-09-29 22:48:39

logistic损失函数的解释的相关文章

Deep learning:一(基础知识_1)

前言: 最近打算稍微系统的学习下deep learing的一些理论知识,打算采用Andrew Ng的网页教程UFLDL Tutorial,据说这个教程写得浅显易懂,也不太长.不过在这这之前还是复习下machine learning的基础知识,见网页:http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning.内容其实很短,每小节就那么几分钟,且讲得非常棒. 教程中的一些术语: Model repr

转载 Deep learning:一(基础知识_1)

前言: 最近打算稍微系统的学习下deep learing的一些理论知识,打算采用Andrew Ng的网页教程UFLDL Tutorial,据说这个教程写得浅显易懂,也不太长.不过在这这之前还是复习下machine learning的基础知识,见网页:http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning.内容其实很短,每小节就那么几分钟,且讲得非常棒. 教程中的一些术语: Model repr

deep leaning学习笔记(一)

更确切的是读http://www.cnblogs.com/tornadomeet/archive/2013/03/14/2959138.html 写得博客的读后感加自己的理解.蓝色字体是自己的理解. 模型表达就是给出输入和输出之间的函数关系式,当然这个函数是有前提假设的,里面可以含有参数.此时如果有许多训练样本的话,同样可以给出训练样本的平均相关的误差函数,一般该函数也称作是损失函数(Loss function).我们的目标是求出模型表达中的参数,这是通过最小化损失函数来求得的.一般最小化损失函

吴恩达《深度学习》第一门课(2)神经网络的编程基础

2.1二分类 (1)以一张三通道的64×64的图片做二分类识别是否是毛,输出y为1时认为是猫,为0时认为不是猫: y输出是一个数,x输入是64*64*3=12288的向量. (2)以下是一些符号定义(数据集变成矩阵之后进行矩阵运算代替循环运算,更加高效) x:表示一个nx维数据,维度为(nx,1) y:表示输出结果,取值为(0,1): (x(i),y(i)):表示第i组数据: X=[x(1),x(2),--,x(m)]:表示按列将所有的训练数据集的输入值堆叠成一个矩阵:其中m表示样本数目: Y=

机器学习(四)--- 从gbdt到xgboost

gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成.它最早见于yahoo,后被广泛应用在搜索排序.点击率预估上. xgboost是陈天奇大牛新开发的Boosting库.它是一个大规模.分布式的通用Gradient Boosting(GBDT)库,它在Gradient Boosting框架下实现了GBDT和一些广义的线性机器学习算法. 本文首先讲解了gbdt的原

PRML读书会第十四章 Combining Models

主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180)?18:57:18? 大家好,今天我们讲一下第14章combining?models,这一章是联合模型,通过将多个模型以某种形式结合起来,可以获得比单个模型更好的预测效果.包括这几部分:committees,?训练多个不同的模型,取其平均值作为最终预测值. boosting:?是committees的特殊形式,顺序训练L个模型,每个模型的训练依赖前一个模型的训练结果.决策树:不同模型负责输入变量的不同区间的预测,每个样本选

Batch Gradient Descendent (BGD) & Stochastic Gradient Descendent (SGD)

SGD, BGD初步描述 (原文来自:http://blog.csdn.net/lilyth_lilyth/article/details/8973972,@熊均达@SJTU 做出解释及说明) 梯度下降(GD)是最小化风险函数.损失函数(注意Risk Function和Cost Function在本文中其实指的一个意思,在不同应用领域里面可能叫法会有所不同.解释:@熊均达@SJTU)的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写

MLlib-分类与回归

MLlib支持二分类,多酚类和回归分析的多种方法,具体如下: 问题类别 支持方法 二分类 线性支持向量机, 逻辑回归,决策树,朴素贝叶斯 多分类 决策树,朴素贝叶斯 回归 线性最小二乘,Lasso,ridge regression, 决策树 线性模型 二分类(支持向量机, 逻辑回归) 线性回归(最小二乘,Lasso, ridge) 决策树 朴素贝叶斯 线性模型 数学公式 损失函数 正则化 最优化 二分类 线性支持向量机 逻辑回归 评价矩阵 例子 线性最小二乘,Lasso,ridgeregress

论文笔记-Wide & Deep Learning for Recommender Systems

本文提出的W&D是针对rank环节的模型. 网络结构: 本文提出的W&D是针对rank环节的模型. 网络结构: wide是简单的线性模型,但是可以预先对特征做各种变换.交叉等来增加wide模型的非线性性. deep是一个FNN,对高维稀疏类别特征采取embedding降维,embedding的结果是在训练时候学出来的. wide与deep结合的方式,是将两者的输出通过加权最后喂给一个logistic损失函数.值得注意的是,这里是join train并不是ensemble,ensemble是