通过杨老师的细心点拨,我获得了以前没有的看问题的视角,重新审视了以前看的文章。通过这些新的视角,我从这些内容中看到了以前没有注意到的东西,看到了更本质的东西。希望多多交流!
$\textrm{JSE in my view:}$
$\textrm{EM in my view:}$
$\textrm{Relevance Vector Machine:}$
RVM是从线性回归模型派生出来的,所以首次从线性回归模型的角度来看RVM。RVM的线性回归模型是:$$t_n = \sum_{k} \phi_k(x_n)w_n + \epsilon_n$$,其中$\{x_n,t_n\}$是input-target pairs,它们是已知的; $\phi_k(\cdot)$是basis function; $\epsilon_n \sim N(0,\sigma^2)$; 而$\boldsymbol{w}$和$\sigma^2$就是需要被求出的参数。现在可以将$\boldsymbol{w}$和$\sigma^2$看作fixed number,然后通过MLE直接求出;也可以将他们看作random variable通过概率的方法求出它们的最优估计值。RVM是选择的后一种方式。
通过给每个$w_k$加上高斯分布:$w_k \sim N(0,\alpha_i^{-1})$,使得$\boldsymbol{w}$成为random ariable。但是成为random variable之后,自然引入了uncertainty了,这时候不能像处理fixed number一样处理$\boldsymbol{w}$了。这时候为了消除这个uncertainty,通常有几种手段,RVM的方法是对$\boldsymbol{w}$做积分将其消除掉:$$p(\boldsymbol{t};\boldsymbol{\alpha},\sigma^2) = \int_{\boldsymbol{w}} p(\boldsymbol{t}|\boldsymbol{w};\sigma^2) p(\boldsymbol{w};\boldsymbol{\alpha}) d\boldsymbol{w}.$$到了这里,$\boldsymbol{w}$暂时消失了,只剩下参数$\boldsymbol{\alpha}$和$\sigma^2$有待求解了。求解这些参数的时候,可以像JSE那样用估计量的方法,也可以直接像MLE那样求最大似然值,方法多种多样了。
我们在JSE里面看到了对take home message的使用,其实在RVM中,也可以把其他样本的信息拿来大家分享,使得得到的结果更加精确一些。在RVM模型中,其实$\alpha_k$也是有一个先验的,并且$\alpha_k,~(k=1,\cdots,K)$的先验拥有共同的参数$a,b$:$$\alpha_k \sim \Gamma(\alpha_k;a,b)$$,其中$\Gamma(\alpha;a,b) = \Gamma(a)^{-1} b^a \alpha^{a-1} e^{-b\alpha}$。可惜的是,RVM中将$a,b$的值设定成了固定值,如果$a,b$的值也能像JSE里面的$\sigma^2$一样可以从数据中学习的话,那么这样是不是$\alpha_k$的值会更好一点呢?进而使得算法在性能上提高一些?
$\textrm{Bayesian Compressive Sensing:}$
下面在回味“Bayesian Compressive Sensing”一下这篇文章,发现文章所描绘的模型一下子在我眼前清晰了许多。这篇文章是将RVM运用到CS上面,求解CS的问题。不是一般性,CS的模型可以写成$$t = Aw + e$$其中$x$是待恢复的数据,$A$包括观测矩阵和稀疏矩阵,$t$是观测到的值,$e$是误差或者理解成噪声。Compressive Sensing说:$$\arg\min_w \left\{ \|t-Aw\|_2^2 + \rho\|w\|_0 \right\} \approx \arg\min_w \left\{ \|t-Aw\|_2^2 + \rho\|w\|_1 \right\}$$而$$\arg\min_w \left\{ \|t-Aw\|_2^2 + \rho\|w\|_1 \right\} \Leftrightarrow \arg\max_w N(t|Aw,\sigma^2) \cdot e^{- \rho\|w\|_1}$$于是这篇文章后面就开始了使用RVM模型来求解问题。但是Laplace先验$e^{- \rho\|w\|_1}$又不是很好处理,于是这个Laplace先验就被作者换成了高斯先验+Gamma先验,这就和RVM完全一样的。到这里,这篇文章基本上就清楚了。剩下的RVM的内容就不重复赘述了。
$\textrm{Bayesian Compressive Sensing using Laplace Priors:}$