这两天一直在看深度学习的东西,看的头晕脑胀,不过晕乎归晕乎,感觉对模式识别中的特征提取有了更深一点的小理解,暂时记载下来。
突然觉得,模式识别的所有问题都绕不过两个关键门槛,第一是分类器,第二便是特征提取。而且几乎所有模式识别方面的研究都是在优化这两个问题,要么是造一个更牛的分类器,要么是找出一些表现力更高的特征形式。
然而这个问题再最近几年变得不那么明朗了,分类器的研究不用多说,从刚开始的K近邻分类器,贝叶斯分类器,到曾经风靡一时的SVM,再到目前处在浪潮之巅的DeepLearning(谷歌大脑主要就是用的这个,与其说是分类器,这应该更倾向于特征提取),分类器越来越复杂,性能越来越高。特征提取呢,大致也是如此。但存在这样一个问题,就是对经典的模式分类问题,比如指纹识别,文字识别等等,有规矩可循,特征提取自然举足轻重(角点,拐点之类的);但对于那些更抽象、更智能、更拟人的模式分类问题,比如美丽度识别、警觉度识别、表情识别等等,我们用什么特征来描述它们呢?特征提取充当什么样的角色?
其实对于没搞过模式识别或者是模式识别的初学者来说,这的确值得思考。做惯了传统的识别,再去研究美丽度、表情、警觉度这些抽象的东西,确实有点不适应。究其原因,就是找不到实实在在的东西去描述美丽度、表情、警觉度这些抽象的概念,提不到特征,分类识别自然也就无从谈起。
难道抽象形式的分类问题无从解决了吗?这个命题显然是错的,但提不到特征怎么解决呢?这就是问题的关键,不是提不到特征,只是提取不到客观的、可见的、可衡量的特征。按照稀疏表示人脸识别的先驱Ma Yi的观点:“图像本身是图像内容信息表示最冗余、也是最全面的存在”,也就是说,图像本身就是特征的存在。换句话说,感觉实在提取不到特征了,那就千拳归一路,把图像本身直接送给分类器去吧。
用分类器直接处理图像本身,看似鲁莽,其实蕴藏着真正至简的大道理。每种特征都有自身的局限性,都是有意突出图像某些方面的特征,简化甚至忽略别的方面的特征,导致的最终结果就是信息的丢失。Gabor特征搞人脸识别效果好,但它直接忽略了整体的亮度特征,那白人和黑人怎么办?所以只要能提去出具体的、客观实在的特征,就不可避免的存在着信息的丢失,那些丢失的次要信息,对于某些问题的影响可以忽略(如指纹识别、文字识别),但对有些主观问题的影响却是不可估量的。总之,这种机械的选择特征来替代原图像,是机器的思维方式,不是人的思维方式。
当今对于那些无法用具体特征描述的分类问题,存在两种主流的处理方式,要么干脆直接把图像送给分类器去,这是稀疏表示问题(Ma Yi在文章《Robust Face Recognition via Sparse Representation》中证实稀疏表示分类器的人脸识别性能对特征选择的依赖程度很小);要么然机器自己去学习该用那些特征,机器根据样本自己决定特征的取舍,这更是一种类人的智能化的做法,这也就衍生出了当今如火如荼的东西:深度学习(Deep Learning),名噪一时的谷歌大脑就是这样弄出来的。换句话说,如果不能判断解决一个识别问题应该用哪些特征,那就让机器自己去找好了。就好像支持向量机一样,既然人工找不到最优的分类超平面,就让机器自己去映射,自己去找。恰巧的是,人的大脑也是这么干的。
总之,在当今这个面向数据的年代,特征选择这个任务越来越不适合人工来做了,典型费力不讨好的工作,让机器自己去找,更符合人的思维。但特征提取是不存在了吗?不是的,因为Deep Learning就是在提特征,只不过让机器自己来做。
源地址:http://blog.csdn.net/u013088062/article/details/45952613