1. 在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是:
(AB)C
解析:首先,根据简单的矩阵知识,因为 A*B , A 的列数必须和 B 的行数相等。因此,可以排除C 选项。
m*n 的矩阵 A 和 n*p 的矩阵 B 的乘积,得到 m*p 的矩阵 A*B ,而 A*B 的每个元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m*n*p 次乘法运算。
同样情况分析 A*B 之后再乘以 C 时的情况,共需要 m*p*q次乘法运算。因此,A 选项的(AB)C 需要的乘法次数是 m*n*p+m*p*q 。
同理分析, B 选项的 A (BC)需要的乘法次数是 n*p*q+m*n*q 。由于 m*n*p< m*n*q , m*p*q<n*p*q。
2. 常见的判别式模型有:
Logistic regression
Linear discriminant analysis
Supportvector machines
Boosting
Conditional random fields
Linear regression
Neural networks
常见的生成式模型有:
Gaussian mixture model and othertypes of mixture model
Hidden Markov model
NaiveBayes
AODE
Latent Dirichlet allocation
Restricted Boltzmann Machine
3.概率质量函数 (probability mass function,PMF)是离散随机变量在各特定取值上的概率。
概率密度函数(p robability density function,PDF )是对 连续随机变量 定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。
累积分布函数(cumulative distribution function,CDF) 能完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。对於所有实数x ,与pdf相对。
4. 在统计模式识分类问题中,当先验概率未知时,可以使用
N-P判决
最小最大损失准则
解析:在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
而最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
5. CRF模型对于HMM和MEMM模型的优势:
CRF优点:特征灵活,可容纳较多的上下文信息,能够做到全局最优;
CRF缺点:训练代价大,度咋读高,速度慢;
1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)-------- 与HMM比较
2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 --------- 与MEMM比较
3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分;--------- 与ME比较
6. 在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计:极大似然估计。
- EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
- 维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
- 前向后向:用来算概率
- 极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
在给定观测序列和对应的状态序列估计模型参数,可以利用极大似然发估计。
如果给定观测序列,没有对应的状态序列,才用EM,将状态序列看不不可测的隐数据。
7.分支定界法(branch and bound)是一种求解 整数规划 问题的最常用算法。
这种方法不但可以求解纯整数规划,还可以求解混合整数规划问题。分支定界法是计算机最擅长 的广义搜索穷举算法。
分支定界法是一种搜索与迭代的方法,选择不同的分支变量和子问题进行分支。
对于两个变量的整数规划问题,使用网格的方法有时更为简单。
该算法的主要思路是:定义一个满足单调性条件的评价准则函数,对两个特征子集S1和S2而言,如果S1是S2的子集, 那么S1所对应的评价函数值必须要小于S2所对应的评价函数值,在定义了该评价函数的前提下,该算法对最终特征子集的选择过程可以用一棵树来描述,树根是所有特征的集合从树根可分性判据值和事先定义的最佳特征子集的特征数目,搜索满足要求的特征子集
但存在3个问题:
1于该算法无法对所有的特征依据其重要性进行排序!如何事先确定最优特征子集中特征的数目是一个很大的问题2合乎问题要求的满足单调性的可分性判据难以设计3当处理高维度多分类问题时!算法要运行多次!计算效率低下的问题将非常明显