训练数据集中的每个样本用n维向量表示,第n维数据的值是0或者1,建立分类算法,对于新的给定样本,已知向量前n-1维数据,预测向量最后一维的值。
1) 数据中关系到选择或者建立分类算法的2个最重要的属性是什么?为什么?
2) 现在已知两个分类算法,第一个算法训练花费时间5h,预测每个样本时间为1.5ms, 正确率86%; 第二个算法,训练花费时间30min,预测每个样本时间为2.5ms, 正确率95%, 应该选择哪个,为什么?
1、两个最重要的属性我认为是目标变量的离散还是连续以及前n-1维变量中是否存在连续值。这会影响到分类算法的选择。
2、根据需要预测的样本数量和对正确率的要求来选择。预测效率降低了66%,准确率只提高了10%。
时间: 2024-11-16 15:40:28