1、python和R在做数据分析时各有自己得擅长得领域,如python做时域分析得难度就远远比R大,因为R有非常成熟得Package!
2、数据处理:如何处理缺失数据?各种处理方法得的利弊?
3、数据处理:如何将类别型(又称做描述型)变量转为连续变量?如何处理有序变量?如何处理无序变量
4、数据处理:如何进行特征选择?如何进行数据压缩?
5、模型解释:什么是欠拟合?什么是过拟合?如何处理这两种情况?
6、模型解释:什么是偏差与方差分解?与欠拟合和过拟合有什么联系?
7、评估模型一般有哪些手段?
1)分类模型评估的方法有哪些?
2)回归问题评估方法有哪些?
3)数据不均衡的评估方法有哪些?
8、深度学习是否比其他学习模型都好?为什么?
9、在只有少量的有标签数据的情况下,如何构建一个反保险欺诈系统?
10、在数据分布不均匀的情况下,是采用过采样还是欠采样?如何调整代价函数和阈值?
11、SVM,什么事最大间隔分类器?什么是kernel,如何悬着kernel?
12、为什么K-means不适合异常值检测?K-means和GMM是什么关系?是否可以用FMM来直接拟合异常值?
13、如何可以得到无监督学习中的分类规则?
14、L1和L2正则化两者有什么不同,什么时候采用L1,什么时候采用L2?为什么L1可以得到稀疏解?它们与嵌入式特征选择有什么联系?
15、根据岗位准备一份项目策划书
看懂周志华<<机器学习>>前十章,并熟练的使用Sklearn中基础API进行建模就可以了,勿矫枉过正,如果你的岗位不是理论型科学家岗位,不要与
数学推导死磕。
-----------------------------------------------------------------------------------------
Answer:
2、1>分析缺失值所在比例,如果某个属性的缺失值太多,可考虑去除该属性。
2>可以用均值、众数、中位数、回归值填充代替
3>用0填充代替