Deep Learning for Natural Language Processeing : Convex Optimization

效率爆表的一个晚上,只是因为没带手机,可怕!

今天开启新的课程,http://cs224d.stanford.edu/syllabus.html 第一章是凸优化,convex Optimazition

凸集 Convex Set

定义:

A set C is convex if, for any x, y ∈ C and θ ∈ R with 0 ≤ θ ≤ 1,
θx + (1 ? θ)y ∈ C.

判别方法:如果一个集合C是凸集,则C中任意两个元素连线上的点都属于C

举例:所有的实数空间;实数空间的非负实数域;

凸方程 Convex Function

定义:定义域D(f)为凸集,且对于任意两个属于D(f)的两个数x,y ; θ ∈ R, 0 ≤ θ ≤ 1,满足
f(θx + (1 ? θ)y) ≤ θf(x) + (1 ? θ)f(y).

first-order approximation:

first order condition for convexity

当且仅当 D(f)是凸集且对于所有满足

则f 是凸方程

second order condition for convexity :

当且仅当 D(f)是凸集且f的海瑟Hessian矩阵(二阶导复合)是半正定:

x ∈ D(f),

Jensen’s Inequality

将凸函数的定义扩展到多个点

若扩展为积分

设定为概率密度

f(E[x]) ≤ E[f(x)]

即为Jensen‘s Inequality

α-Sublevel Sets

定义:对于凸函数f和α ∈ R,{x ∈ D(f) : f(x) ≤ α}

凸集:f(θx + (1 ? θ)y) ≤ θf(x) + (1 ? θ)f(y) ≤ θα + (1 ? θ)α = α

Convex Optimization Problems

where f is a convex function, gi are convex functions, and hi are affine functions, and x is the optimization variable

affine function 

optimal value

locally optimal if there are no “nearby” feasible points that have a lower objective value

globally optimal if there are no feasible points at all that have a lower objective value

在凸优化问题中,所有的局部最优都是全局最优

凸优化中的特例

Linear Programming

Quadratic Programming

Quadraticallly Constrained Quadratic Programming

Semidefinite Programming

Support Vector Machines 是凸优化中一个典型应用

两类样本中离分类面最近的点且平行于最优分类面的超平面上H1,H2的训练样本就叫做支持向量

问题描述:

假定训练数据 :

可以被分为一个超平面:

进行归一化:

此时分类间隔等于:

即使得:最大间隔最大等价于使最小

Constrained least squares

Maximum Likelihood for Logistic Regression

minimize ?(θ)

应用:

Linear SVM using CVX

时间: 2024-10-26 21:15:27

Deep Learning for Natural Language Processeing : Convex Optimization的相关文章

CS224d: Deep Learning for Natural Language Process

Course Description Teaching Assistants Peng Qi Course Notes (updated each week) Detailed Syllabus Class Time and Location Spring quarter (March - June, 2015).Lecture: Monday, Wednesday 11:00-12:15Location: TBD Office Hours Richard: Wed 12:45 - 2:00,

Deep Learning for Natural Language Processing1

Focus, Follow, and Forward Stanford CS224d 课程笔记 Lecture1 Stanford CS224d 课程笔记 Lecture1 Stanford大学在2015年开设了一门Deep Learning for Natural Language Processing的课程,广受好评.并在2016年春季再次开课.我将开始这门课程的学习,并做好每节课的课程笔记放在博客上.争取做到每周一更吧.本文是第一篇. NLP简介 NLP,全名Natural Languag

Deep Learning Libraries by Language

Deep Learning Libraries by Language Tweet Python Theano is a python library for defining and evaluating mathematical expressions with numerical arrays. It makes it easy to write deep learning algorithms in python. On the top of the Theano many more l

Deep Learning for Nature Language Processing --- 第四讲(下)

A note on matrix implementations 将J对softmax的权重W和每个word vector进行求导: 尽量使用矩阵运算(向量化),不要使用for loop. 模型训练中有两个开销比较大的运算:矩阵乘法f=Wx和指数函数exp Softmax(=logistic regression) is not very powerful softmax只是在原来的向量空间中给出了一些linear decision boundary(线性决策线),在小的数据集上有很好的regu

Deep Learning for Nature Language Processing --- 第八讲

Current statistical machine translation systems 源语言:法语 目标语言:英语 概率公式(利用贝叶斯定理): 在平行语料库(parallel corpora)上训练翻译模型p(f|e) 在英语语料库上训练语言模型p(e) Step1: Alignment 目标:将源语言中的单词或者短语匹配到正确的目标语言中的单词或者短语 假如匹配好了单词和短语,那么又如何给这些单词和短语重新排序呢? After many steps 每个源语言中的单词或者短语,在目

Deep Learning for Nature Language Processing --- 第七讲

Overview 传统语言模型 RNNs RNN 语言模型 一些训练时重要的策略和技巧 梯度消失和梯度爆炸的问题 双向RNNs 其他序列问题中的RNNs Language Models 语言模型计算的是一连串词的概率:P(w1,w2-wT):其中的w1,w2-wT都是词向量. 这种语言模型有利于机器翻译,例如: 1.词序:p(the cat is small) > p(small the is cat) 2.词的选取:p(walking home after school) > p(walki

机器学习(Machine Learning)&深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本

机器学习(Machine Learning)&amp;深入学习(Deep Learning)资料

<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室 Jurgen Schmidhuber 写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从 1940 年开始讲起,到

机器学习(Machine Learning)&amp;amp;深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料 機器學習.深度學習方面不錯的資料,轉載. 原作:https://github.com/ty4z2008/Qix/blob/master/dl.md 原作作者會不斷更新.本文更新至2014-12-21 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍非常全面.从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep L