Pytorch学习2020春-1-线性回归

线性回归

主要内容包括:

  1. 线性回归的基本要素
  2. 线性回归模型从零开始的实现
  3. 线性回归模型使用pytorch的简洁实现

线性回归的基本要素

模型

为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:
\[
price=w_{area}*area+w_{age}*age+b
\]

数据集

我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set),一栋房屋被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征(feature)。特征用来表征样本的特点。

损失函数

在模型训练中,我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差,且数值越小表示误差越小。一个常用的选择是平方函数。 它在评估索引为 ??的样本误差的表达式为
\[
l^{(i)}(w,b)=\frac{1}{2}(\hat y^{(i)}-y^{(i)})^2,\L(\mathbf{w},b)=\frac{1}{n}\sum_{i=1}^{n}l^{(i)}(\mathbf{w},b)=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{2}(\mathbf{w}^\top\mathbf{x}^{(i)}-y^{(i)}+b)^2=\frac{1}{2n}\sum_{i=1}^{n}(\mathbf{w}^\top\mathbf{x}^{(i)}-y^{(i)}+b)^2
\]
此处的\(\mathbf{w}^\top\mathbf{x}^{(i)}\)是两个矩阵相乘,向量点积可以用行矩阵乘以列矩阵来实现

优化函数 - 随机梯度下降

当模型和损失函数形式较为简单时,上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解(analytical solution)。本节使用的线性回归和平方误差刚好属于这个范畴。然而,大多数深度学习模型并没有解析解,只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解(numerical solution)。

插曲:什么是梯度下降?

大多数机器学习或者深度学习算法都涉及某种形式的优化。 优化指的是改变 (此处x是一个向量)以最小化或最大化某个函数 的任务。 我们通常以最小化 指代大多数最优化问题。 最大化可经由最小化算法最小化 来实现。

我们把要最小化或最大化的函数称为目标函数或准则。 当我们对其进行最小化时,我们也把它称为代价函数、损失函数或误差函数

下面,我们假设一个损失函数为 ,其中 然后要使得最小化它。

注意:这里只是假设,不用知道这个目标函数就是平方损失函数等等,然后肯定有人问既然要最小化它,那求个导数,然后使得导数等于0求出不就好了吗?Emmmm...是的,有这样的解法,可以去了解正规方程组求解。说下这里不讲的原因,主要是那样的方式太难求解,然后在高维的时候,可能不可解,但机器学习或深度学习中,很多都是超高维的,所以也一般不用那种方法。总之,梯度下降是另一种优化的不错方式,比直接求导好很多。

什么是梯度?

梯度概念是建立在偏导数与方向导数概念基础上的。所谓偏导数,简单来说是对于一个多元函数,选定一个自变量并让其他自变量保持不变,只考察因变量与选定自变量的变化关系。数学上说,是指对于多元函数\(y=f(x_1,x_2,...x_n)\),假设其偏导数都存在,则该函数共有n个偏导数,可以表示为:
\[
{f_{{x_1}}} = {{\partial y} \over {\partial {x_1}}},{f_{{x_2}}} = {{\partial y} \over {\partial {x_2}}}...{f_{{x_n}}} = {{\partial y} \over {\partial {x_n}}}
\]
偏导数只能表示多元函数沿某个坐标轴方向的导数,如对于二元函数\(z=x^2+y^2\;,\;{{\partial z} \over {\partial x}} = 2x\)表示函数沿X轴方向的导数,而\({{\partial z} \over {\partial y}} = 2y\)表示函数沿Y轴方向的导数。

除开沿坐标轴方向上的导数,多元函数在非坐标轴方向上也可以求导数,这种导数称为方向导数。很容易发现,多元函数在特定点的方向导数有无穷多个,表示函数值在各个方向上的增长速度。一个很自然的问题是:在这些方向导数中,是否存在一个最大的方向导数,如果有,其值是否唯一?为了回答这个问题,便需要引入梯度的概念。

一般来说,梯度可以定义为一个函数的全部偏导数构成的向量(这一点与偏导数与方向导数不同,两者都为标量)。一般将函数f的梯度记为\(?f\)

定理:如果函数z=f(x,y)在点p(x,y)是可微分的,函数的增量可以表示为
\[
f(x+\Delta x,y+\Delta y)-f(x,y)=\frac{\part f}{\part x}\Delta x+\frac{\part f}{\part y}\Delta y+o(\rho)
\]
两边同除以Rho可以得到
\[
\frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\rho}=\frac{\part f}{\part x}\frac{\Delta x}{\rho}+\frac{\part f}{\part y}\frac{\Delta y}{\rho}+\frac{o(\rho)}{\rho}
\]
同时取rho趋于零的极限
\[
\lim\limits_{\rho\rightarrow 0}\frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\rho}=\lim\limits_{\rho\rightarrow 0}(\frac{\part f}{\part x}\frac{\Delta x}{\rho}+\frac{\part f}{\part y}\frac{\Delta y}{\rho}+\frac{o(\rho)}{\rho})\\方向向量:\frac{\part f}{\part l}=\frac{\part f}{\part x}cos\theta+\frac{\part f}{\part y}sin\theta
\]
可知,这个关于theta的函数最大值在特殊点取到,这时方向正好是x方向梯度和y方向梯度向量的和向量方向

梯度下降:我们知道曲面上方向导数的最大值的方向就代表了梯度的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。这个 的更新过程可以描述为

续:

在求数值解的优化算法中,小批量随机梯度下降(mini-batch stochastic gradient descent)在深度学习中被广泛使用。它的算法很简单:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所组成的小批量(mini-batch),然后求小批量中数据样本的平均损失有关模型参数的导数(梯度),最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

学习率: ??η代表在每次优化中,能够学习的步长的大小
批量大小: B是小批量计算中的批量大小batch size

总结一下,优化函数的有以下两个步骤:

  • (i)初始化模型参数,一般来说使用随机初始化;
  • (ii)我们在数据上迭代多次,通过在负梯度方向移动参数来更新每个参数。

原文地址:https://www.cnblogs.com/keshuqi/p/12309839.html

时间: 2024-10-31 04:40:23

Pytorch学习2020春-1-线性回归的相关文章

Pytorch学习--编程实战:猫和狗二分类

Pytorch学习系列(一)至(四)均摘自<深度学习框架PyTorch入门与实践>陈云 目录: 1.程序的主要功能 2.文件组织架构 3. 关于`__init__.py` 4.数据处理 5.模型定义 6.工具函数 7.配置文件 8.main.py 9.使用 1.程序的主要功能: 模型定义    数据加载    训练和测试 2.文件组织架构: ```├── checkpoints/├── data/│   ├── __init__.py│   ├── dataset.py│   └── get_

R-机器学习【一】 线性回归(一元)

一.R安装 R for Mac OS http://mirror.bjtu.edu.cn/cran/ RStudio 二.线性回归基础 翻阅<高中数学必修三 --- 变量的相关性> eg1: 凭我们的学习经验可知,物理成绩确实与数学成绩有一定的关系.但是除此之外,还存在其他影响物理成绩的因素,例如,,是否喜欢物理,用再物理学习上的时间等 eg2: 商品销售收入与广告支出经费之间的关系,商品销售收入与广告支出经费有着密切的联系.但是还有很多其他因素 eg3: 粮食产量与施肥量之间的关系.在一定范

sklearn学习笔记之简单线性回归

简单线性回归 线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误差项之后,方程的解法就存在了改变,一般使用最小二乘法进行计算. 使用sklearn.linear_model.LinearRegression进行线性回归 sklearn对Data Mining的各类算法已经有了较好的封装,基本可以使用fit.predict.score来训练.评价模型,并使用模型进

20180122 PyTorch学习资料汇总

PyTorch发布一年团队总结:https://zhuanlan.zhihu.com/p/33131356?gw=1&utm_source=qq&utm_medium=social 官方教程: github:https://github.com/pytorch 官方文档:http://pytorch.org/docs/0.3.0/notes/autograd.html 官方tutorials:http://pytorch.org/tutorials/ 非官方教程: Sean Roberts

[pytorch学习]1.pytorch ubuntu安装

看完了Deep Learning with Python,尝试了部分Keras的demo代码. 感觉Keras虽然容易上手,能够快速搭建出一个通用的模型,但是缺乏对底层的控制. 同时,在使用了自己编译的支持CUDA 10的tensorflow之后,总感觉有些不可控的bug出现:即使仅仅只是把demo代码改为自己的小工程,也有诸如load_model不能放在循环外(否则cudnn报错),第一次model.predict正确,但是循环做第二个predict就出错.在网上搜索了好几天,也没有找到问题的

pytorch 学习笔记之编写 C 扩展,又涨姿势了

pytorch利用CFFI 进行 C 语言扩展.包括两个基本的步骤(docs): 编写 C 代码: python 调用 C 代码,实现相应的 Function 或 Module. 在之前的文章中,我们已经了解了如何自定义 Module.至于 [py]torch 的 C 代码库的结构,我们留待之后讨论: 这里,重点关注,如何在 pytorch C 代码库高层接口的基础上,编写 C 代码,以及如何调用自己编写的 C 代码. 官方示例了如何定义一个加法运算(见 repo).这里我们定义ReLU函数(见

PyTorch学习笔记之nn的简单实例

method 1 1 import torch 2 from torch.autograd import Variable 3 4 N, D_in, H, D_out = 64, 1000, 100, 10 5 x = Variable(torch.randn(N, D_in)) 6 y = Variable(torch.randn(N, D_out), requires_grad=False) 7 8 # define our model as a sequence of layers 9 m

deep learning 学习(二)线性回归的matalab操作

继续学习http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2961660.html 题目是:50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄可有小数形式呈现.Y为这50个小朋友对应的身高,当然也是小数形式表示的.现在的问题是要根据这50个训练样本,估计出3.5岁和7岁时小孩子的身高. 数据可以在http://openclassroom.stanford.edu/MainFolder/DocumentPage.php

PyTorch学习问题记录

Q1:def train() 中的model.train()的作用是什么?为什么要写? A1:class torch.nn.Module中 train(mode=True) Sets the module in training mode. This has any effect only on modules such as Dropout or BatchNorm. 参看 http://pytorch.org/docs/master/nn.html Q2:torch.gather() 和 t