机器学习-常见问题积累【1】

1、python和R在做数据分析时各有自己得擅长得领域,如python做时域分析得难度就远远比R大,因为R有非常成熟得Package!

2、数据处理:如何处理缺失数据?各种处理方法得的利弊?

3、数据处理:如何将类别型(又称做描述型)变量转为连续变量?如何处理有序变量?如何处理无序变量

4、数据处理:如何进行特征选择?如何进行数据压缩?

5、模型解释:什么是欠拟合?什么是过拟合?如何处理这两种情况?

6、模型解释:什么是偏差与方差分解?与欠拟合和过拟合有什么联系?

7、评估模型一般有哪些手段?

1)分类模型评估的方法有哪些?

2)回归问题评估方法有哪些?

3)数据不均衡的评估方法有哪些?

8、深度学习是否比其他学习模型都好?为什么?

9、在只有少量的有标签数据的情况下,如何构建一个反保险欺诈系统?

10、在数据分布不均匀的情况下,是采用过采样还是欠采样?如何调整代价函数和阈值?

11、SVM,什么事最大间隔分类器?什么是kernel,如何悬着kernel?

12、为什么K-means不适合异常值检测?K-means和GMM是什么关系?是否可以用FMM来直接拟合异常值?

13、如何可以得到无监督学习中的分类规则?

14、L1和L2正则化两者有什么不同,什么时候采用L1,什么时候采用L2?为什么L1可以得到稀疏解?它们与嵌入式特征选择有什么联系?

15、根据岗位准备一份项目策划书

看懂周志华<<机器学习>>前十章,并熟练的使用Sklearn中基础API进行建模就可以了,勿矫枉过正,如果你的岗位不是理论型科学家岗位,不要与

数学推导死磕。

-----------------------------------------------------------------------------------------

Answer:

2、1>分析缺失值所在比例,如果某个属性的缺失值太多,可考虑去除该属性。

2>可以用均值、众数、中位数、回归值填充代替

3>用0填充代替

时间: 2024-09-30 02:00:12

机器学习-常见问题积累【1】的相关文章

机器学习知识积累

判别模型(discriminative) vs生成模型(generative) 逻辑回归算法简单,对特征工程的要求就非常高.必须做特征归一化,否则各特征重要程度不一. http://www.cnblogs.com/maybe2030/p/6336896.html 原文地址:https://www.cnblogs.com/kidsitcn/p/9351829.html

机器学习中常见问题_几种梯度下降法

一.梯度下降法 在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,以便寻找到最优的参数.在求解机器学习参数的优化算法中,使用较多的是基于梯度下降的优化算法(Gradient Descent, GD). 梯度下降法有很多优点,其中,在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,这使得梯度下降法能在很多大规模数据集上得到应用.梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点. 基本思想可以这样理解:我们从山

机器学习领域知识概念问题点积累

nd-array/scipy sparse matrices/pandas dataframe sparse matrice是scipy包定义的一种紧凑数据组织矩阵,pandas dataframe基于numpy的nd-array https://docs.scipy.org/doc/scipy/reference/sparse.html feature extraction:特征提取 所有的机器学习算法的输入就是一堆行列构成的数字集合,那么问题来了一般性问题的输入可能并非数字,比如nlp自然语

机器学习面试常见问题

(1) 无监督和有监督算法的区别? 有监督学习: 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测.这里,所有的标记(分类)是已知的.因此,训练样本的岐义性低. 无监督学习: 对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识.这里,所有的标记(分类)是未知的.因此,训练样本的岐义性高.聚类就是典型的无监督学习. (2) SVM 的推导,特性?多分类怎么处理? SVM是最大间隔分类器,几何间隔和样本的误分次数之间存在关系,,其中 从

机器学习积累【2】

1.样本不平衡问题 正样本多余正样本: 1)欠采样,随机抽取负样本去除,使的正负样本比例平衡.缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息 2)过采样,增加一些正样本,使得正负样本比例接近.最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息.改进的方法是通过在少数类中加入随机高斯噪声或产生新的合成样本等方法. 3)直接使用原始训练数据进行训练,但在训练好的分类器进行预测时,将比例缩放嵌入到其决策的过程中,称为"阈值移动". 4) 在类别不

机器学习算法岗面试常见问题

过拟合原因 数据:数据不规范,数据量少,数据穿越,统计特征用到了未来的信息或者标签信息 算法:算法过于复杂 解决: 1.将数据规范化,处理缺失值,增加数据量,采样,添加噪声数据 2.正则化,控制模型复杂程度, 3.early stoping,减少迭代次数,减少树的深度, 4.学习率调大/小点. 5.融合几个模型 L1和L2的区别 1.L1是Lasso Regression,表示向量中每个元素绝对值的和:L1范数的解通常是稀疏性的,倾向于选择数目较少的一些非常大的值或者数目较多的insignifi

机器学习数学知识积累

排列与组合 排列的定义 从n个不同元素中,任取m(m≤n,m与n均为自然数,下同)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列:从n个不同元素中取出m(m≤n)个元素的所有排列的个数,叫做从n个不同元素中取出m个元素的排列数,用符号 A(n,m)表示. 组合的定义 从n个不同元素中,任取m(m≤n)个元素并成一组,叫做从n个不同元素中取出m个元素的一个组合:从n个不同元素中取出m(m≤n)个元素的所有组合的个数,叫做从n个不同元素中取出m个元素的组合数.用符号 C(n

机器学习系列(7)_机器学习路线图(附资料)

作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.csdn.net/han_xiaoyang/article/details/50759472 声明:版权所有,转载请联系作者并注明出处 1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸:也自然而然点开今日头条推给你的新闻

机器学习必备手册

机器学习是计算机科学的一个子领域,在人工智能领域,机器学习逐渐发展成模式识别和计算科学理论的研究.从2016年起,机器学习到达了不合理的火热巅峰.但是,有效的机器学习是困难的,因为机器学习本身就是一个交叉学科,没有科学的方法及一定的积累很难入门. 如果你也想学习机器学习或者正在学习机器学习,本手册一定会帮助你走向你自己的"人生巅峰".手册包含如何入门机器学习,机器学习流行算法,机器学习实战等等. 一.机器学习入门篇: 1.让你少走弯路:这有一份开展机器学习的简短指南 摘要:本文分享了一