逻辑回归的相关问题及java实现

本讲主要说下逻辑回归的相关问题和详细的实现方法

1. 什么是逻辑回归

逻辑回归是线性回归的一种,那么什么是回归,什么是线性回归

回归指的是公式已知,对公式中的未知參数进行预计,注意公式必须是已知的,否则是没有办法进行回归的

线性回归指的是回归中的公式是一次的,比如z=ax+by

逻辑回归事实上就是在线性回归的基础上套了一个sigmoid函数,详细的样子例如以下

2. 正则化项

引入正则化项的目的是防止模型过拟合,函数对样本的拟合有三种结果

欠拟合:直观的理解就是在训练集上的误差比較大,拟合出来的函数应该是曲线,结果拟合成了一条直线

过拟合:在训练集上的误差非常小甚至为0,追求经验风险最小化,模型拟合的非常复杂,往往在未知的样本集上表现的不够好

合适的拟合:在训练集合測试集上都表现的比較好,追求经验风险和结构风险的均衡

解决过拟合的问题一般有两种方法,一是降低特征的维度,二是进行正则化。对降低特征的维度我的理解是造成过拟合的原因是特征太多样本太少,所以进行特征选择以降低特征会得到比較好的拟合效果,以下具体说一下正则化。

先看一下正则化的样子

事实上就是在损失函数里增加一个正则化项,正则化项就是权重的L1或者L2范数乘以一个lamda,用来控制损失函数和正则化项的比重,直观的理解,首先防止过拟合的目的就是防止最后训练出来的模型过分的依赖某一个特征,当最小化损失函数的时候,某一维度非常大,拟合出来的函数值与真实的值之间的差距非常小,通过正则化能够使总体的cost变大,从而避免了过分依赖某一维度的结果。当然加正则化的前提是特征值要进行归一化,比如有的特征的范围是200-500,有个特征的范围是0-1,这个时候就要进行归一化,比如都化为0-1之间。

3. 最小二乘法和最大似然法

最小二乘法,感觉名字起的不好,不能一目了然,有点拗口,事实上就是最小平方和的意思么,那么为什么用最小二乘法呢,我们知道,我们的目的就是较少预測值和真实值之间的差值,那么直接把差值直接加起来作为误差不就好了,当然不行,由于误差有正有负,有些误差会抵消,那么绝对值的和呢,听起来也比較合理,理论上应该也能够,只是最小二乘法有个比較合理解释,有样本点D,然后非常多候选的曲线h来分开这些点,那么选择哪条直线呢,我们选的应该是后验概率最大的那条线,也就是P(h|D)最大的那条线。由贝叶斯知道p(h|D)正比于p(h)*p(D|h),先验概率p(h)觉得是均等的,所以仅仅要最大化p(D|h)就可以,由于样本点D是独立的,所以p(D|h)=p(d1|h)*p(d2|h)*......*p(dn|h
)。我们觉得这些点是含有噪音的,是由于噪音让他偏离了一条完美的曲线,一种非常合理的如果就是偏离远大的概率越小,那么这个偏离的概率能够用正态分布来描写叙述,形式化的表达为p(dn|h)=exp(-delta^2),所以p(D|h)=exp(-(delta1^2+delta2^2......+deltan^2)),我们的目的是最大化这个概率,等价于最小化里面的平方和,min(delta1^2+delta2^2......+deltan^2),是不是非常熟悉啊

这个时候,我们看一下,最小二乘法适合做逻辑回归的误差函数么,答案是不适合,由于最小二乘法的误差我们如果的事符合正态分布,而逻辑回归的误差符合的是二项分布,所以不能用最小二乘法来作为损失函数,那么能够用最大似然预计来做

4. java实现梯度下降法

实验:

样本:

-0.017612	14.053064	0
-1.395634	4.662541	1
-0.752157	6.538620	0
-1.322371	7.152853	0
0.423363	11.054677	0
0.406704	7.067335	1
0.667394	12.741452	0
-2.460150	6.866805	1
0.569411	9.548755	0
-0.026632	10.427743	0
0.850433	6.920334	1
1.347183	13.175500	0
1.176813	3.167020	1
-1.781871	9.097953	0
-0.566606	5.749003	1
0.931635	1.589505	1
-0.024205	6.151823	1
-0.036453	2.690988	1
-0.196949	0.444165	1
1.014459	5.754399	1
1.985298	3.230619	1
-1.693453	-0.557540	1
-0.576525	11.778922	0
-0.346811	-1.678730	1
-2.124484	2.672471	1
1.217916	9.597015	0
-0.733928	9.098687	0
-3.642001	-1.618087	1
0.315985	3.523953	1
1.416614	9.619232	0
-0.386323	3.989286	1
0.556921	8.294984	1
1.224863	11.587360	0
-1.347803	-2.406051	1
1.196604	4.951851	1
0.275221	9.543647	0
0.470575	9.332488	0
-1.889567	9.542662	0
-1.527893	12.150579	0
-1.185247	11.309318	0
-0.445678	3.297303	1
1.042222	6.105155	1
-0.618787	10.320986	0
1.152083	0.548467	1
0.828534	2.676045	1
-1.237728	10.549033	0
-0.683565	-2.166125	1
0.229456	5.921938	1
-0.959885	11.555336	0
0.492911	10.993324	0
0.184992	8.721488	0
-0.355715	10.325976	0
-0.397822	8.058397	0
0.824839	13.730343	0
1.507278	5.027866	1
0.099671	6.835839	1
-0.344008	10.717485	0
1.785928	7.718645	1
-0.918801	11.560217	0
-0.364009	4.747300	1
-0.841722	4.119083	1
0.490426	1.960539	1
-0.007194	9.075792	0
0.356107	12.447863	0
0.342578	12.281162	0
-0.810823	-1.466018	1
2.530777	6.476801	1
1.296683	11.607559	0
0.475487	12.040035	0
-0.783277	11.009725	0
0.074798	11.023650	0
-1.337472	0.468339	1
-0.102781	13.763651	0
-0.147324	2.874846	1
0.518389	9.887035	0
1.015399	7.571882	0
-1.658086	-0.027255	1
1.319944	2.171228	1
2.056216	5.019981	1
-0.851633	4.375691	1
-1.510047	6.061992	0
-1.076637	-3.181888	1
1.821096	10.283990	0
3.010150	8.401766	1
-1.099458	1.688274	1
-0.834872	-1.733869	1
-0.846637	3.849075	1
1.400102	12.628781	0
1.752842	5.468166	1
0.078557	0.059736	1
0.089392	-0.715300	1
1.825662	12.693808	0
0.197445	9.744638	0
0.126117	0.922311	1
-0.679797	1.220530	1
0.677983	2.556666	1
0.761349	10.693862	0
-2.168791	0.143632	1
1.388610	9.341997	0
0.317029	14.739025	0

主要代码

public class LogRegression {

	public static void main(String[] args) {

		LogRegression lr = new LogRegression();
		Instances instances = new Instances();
		lr.train(instances, 0.01f, 200, (short)1);
	}

	public void train(Instances instances, float step, int maxIt, short algorithm) {

		float[][] datas = instances.datas;
		float[] labels = instances.labels;
		int size = datas.length;
		int dim = datas[0].length;
		float[] w = new float[dim];

		for(int i = 0; i < dim; i++) {
			w[i] = 1;
		}

		switch(algorithm){
		//批量梯度下降
		case 1:
			for(int i = 0; i < maxIt; i++) {
				//求输出
				float[] out = new float[size];
				for(int s = 0; s < size; s++) {
					float lire = innerProduct(w, datas[s]);
					out[s] = sigmoid(lire);
				}
				for(int d = 0; d < dim; d++) {
					float sum = 0;
					for(int s = 0; s < size; s++) {
						sum  += (labels[s] - out[s]) * datas[s][d];
					}
					w[d] = w[d] + step * sum;
				}
				System.out.println(Arrays.toString(w));
			}
			break;
		//随机梯度下降
		case 2:
			for(int i = 0; i < maxIt; i++) {
				for(int s = 0; s < size; s++) {
					float lire = innerProduct(w, datas[s]);
					float out = sigmoid(lire);
					float error = labels[s] - out;
					for(int d = 0; d < dim; d++) {
						w[d] += step * error * datas[s][d];
					}
				}
				System.out.println(Arrays.toString(w));
			}
			break;
		}
	}

	private float innerProduct(float[] w, float[] x) {

		float sum = 0;
		for(int i = 0; i < w.length; i++) {
			sum += w[i] * x[i];
		}

		return sum;
	}

	private float sigmoid(float src) {
		return (float) (1.0 / (1 + Math.exp(-src)));
	}
}

效果

时间: 2024-07-29 20:57:37

逻辑回归的相关问题及java实现的相关文章

通俗地说逻辑回归【Logistic regression】算法(一)

在说逻辑回归前,还是得提一提他的兄弟,线性回归.在某些地方,逻辑回归算法和线性回归算法是类似的.但它和线性回归最大的不同在于,逻辑回归是作用是分类的. 还记得之前说的吗,线性回归其实就是求出一条拟合空间中所有点的线.逻辑回归的本质其实也和线性回归一样,但它加了一个步骤,逻辑回归使用sigmoid函数转换线性回归的输出以返回概率值,然后可以将概率值映射到两个或更多个离散类. 如果给出学生的成绩,比较线性回归和逻辑回归的不同如下: 线性回归可以帮助我们以0-100的等级预测学生的测试分数.线性回归预

机器学习之——判定边界和逻辑回归模型的代价函数

判定边界(Decision Boundary) 上一次我们讨论了一个新的模型--逻辑回归模型(Logistic Regression),在逻辑回归中,我们预测: 当h?大于等于0.5时,预测y=1 当h?小于0.5时,预测y=0 根据上面的预测,我们绘制出一条S形函数,如下: 根据函数图像,我们知道,当 z=0时,g(z)=0.5 z>0时,g(z)>0.5 z<0时,g(z)<0.5 又有: 所以 以上,为我们预知的逻辑回归的部分内容.好,现在假设我们有一个模型: 并且参数?是向

机器学习方法(五):逻辑回归Logistic Regression,Softmax Regression

技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面介绍过线性回归的基本知识,线性回归因为它的简单,易用,且可以求出闭合解,被广泛地运用在各种机器学习应用中.事实上,除了单独使用,线性回归也是很多其他算法的组成部分.线性回归的缺点也是很明显的,因为线性回归是输入到输出的线性变换,拟合能力有限:另外,线性回归的目标值可以是(?∞,+∞),而有的时候,目标值的范围是[0,1](可以表示概率值),那么就不方便了. 逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就

逻辑回归要点(个人观点,不一定正确)

不是搞算法的,但最近用到这个,所以按个人的理解总结一下要点,可能有理解上的错误,欢迎指正批评. 目前场景是用于可能性预测. 1.逻辑回归模型计算出来的是相对可能性,而非概率,所以非常适合topN选择等问题:如果用于分类,则其用于分割的阈值通过指标参数确定.总体上来说,更适合求topN. 2.仅能用于线性问题,其实很多数学不是很好的人,对这个理解不深入,在使用Logistic Regression时注意选择和target呈线性关系的feature.预先知道模型非线性时,果断不使用Logistic

逻辑回归的实现(LogicalRegression)

1.背景知识 在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法. (1)回归 先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归.我们通过大量的数据找出这条线,并拟合出这条线的表达式,再有数据,我们就以这条线为区分来实现分类.下图是我画的一个数据集的两组数据,中间有一条区分两组数据的线. (2)sigmoid函数 我们看到了上图中两组数据的划分,那么我们怎

逻辑回归模型梯度下降法跟牛顿法比较

1.综述 机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解.梯度下降的目的是直接求解目标函数极小值,而牛顿法则变相地通过求解目标函数一阶导为零的参数值,进而求得目标函数最小值.在逻辑回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法. 2 梯度下降法 2.1算法描述 1.确定误差范围和下降的步长,确定函数的导函数 2.while(|新值 -旧值| >误差) 3.       旧值=新值 4.       新值=初始值-步长*导函数

感知器、逻辑回归和SVM的求解

这篇文章将介绍感知器.逻辑回归的求解和SVM的部分求解,包含部分的证明.本文章涉及的一些基础知识,已经在<梯度下降.牛顿法和拉格朗日对偶性>中指出,而这里要解决的问题,来自<从感知器到SVM> .<从线性回归到逻辑回归>两篇文章. 感知器: 前面的文章已经讲到,感知器的目标函数如下: $min \ L(w,b)$ 其中,$L(w,b)=-\sum_{i=1}^{n}[y_i*(w*x_i+b)]$ 对于上面这种无约束的最优化问题,一般采用的是梯度下降的办法,但是,考虑到

统计学习方法五 逻辑回归分类

逻辑回归分类 1,概念 2,算法流程 3,多分类逻辑回归 4,逻辑回归总结 优点: 1)预测结果是界于0和1之间的概率: 2)可以适用于连续性和类别性自变量: 3)容易使用和解释: 缺点: 1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转.?需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性: 2)预测结果呈"S"型,因此从log(odds)向概率转化的过程是非线性的,在

逻辑回归特征选择

特征选择很重要,除了人工选择,还可以用其他机器学习方法,如逻辑回归.随机森林.PCA.LDA等. 分享一下逻辑回归做特征选择 特征选择包括: 特征升维 特征降维 特征升维 如一个样本有少量特征,可以升维,更好的拟合曲线 特征X 升维X/X**2/ 效果验证,做回归 加特征x**2之后的效果 特征X1.X2 升维X1/X2/X1X2/X1**2/X2**2/ 特征降维 利用L1正则化做特征选择 sparkmllib代码实现 import java.io.PrintWriter import jav