机器学习题目

训练数据集中的每个样本用n维向量表示,第n维数据的值是0或者1,建立分类算法,对于新的给定样本,已知向量前n-1维数据,预测向量最后一维的值。

1) 数据中关系到选择或者建立分类算法的2个最重要的属性是什么?为什么?

2) 现在已知两个分类算法,第一个算法训练花费时间5h,预测每个样本时间为1.5ms, 正确率86%; 第二个算法,训练花费时间30min,预测每个样本时间为2.5ms, 正确率95%, 应该选择哪个,为什么?

1、两个最重要的属性我认为是目标变量的离散还是连续以及前n-1维变量中是否存在连续值。这会影响到分类算法的选择。
2、根据需要预测的样本数量和对正确率的要求来选择。预测效率降低了66%,准确率只提高了10%。

时间: 2024-11-16 15:40:28

机器学习题目的相关文章

面试:技术题汇总

一面:技术基础面+理论基础面 理论基础(重点是基础.潜力.学习能力.独立研究能力) 1.数据结构算法题目 如何计算有向无环图中的单源最短路径 如何判断一颗二叉树是对称的 如何用O(1)的时间复杂度计算栈中的最大最小值 如何复制一个双向链表(如何复制一个有向图) 介绍参加过数学建模.ACM程序设计大赛的经验(应届生) 2.语言题目 高级语言是如何编译成机器语言的,机器是如何执行的 如何实现一个json或XML的语法解析器 编程语言的垃圾回收是如何做到的 3.系统题目 操作系统是如何支持多线程 什么

百度 2015 校招 北京机器学习/数据挖掘工程师笔试题目(地点:天津大学)

注:凭记忆写的,可能不全,也不一定正确. 一. 简答题 1. new 和 malloc 的区别. 2. hash冲突是指什么?怎么解决?给两种方法,写出过程和优缺点. 3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,则至少需要几次? 二. 算法设计题 1. 用C/C++写一个归并排序. 数据结构为struct Node{int v; Node *next}; 接口为 Node * merge_sort(Node *); 2. 设计S型层次遍历树的算法,比如根节点是第一层,第

机器学习部分题目

题目1:谈谈缺失值的处理: 答: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类.分组.删失或截断.它指的是现有数据集中某个或某些属性的值是不完全的.缺失值的产生的原因多种多样,主要分为机械原因和人为原因. 下面简单讨论缺失值的一般处理方法:总体上来讲有删除法和插补法一.删除法(1)简单删除法:对有缺失值的条目直接删除:优点:简单,对不完整的条目占样本总体较小时效果很好:缺点:在不完整样本占样本总体比重较大时,丢失大量信息,影响后续处理(2)权重法:二.插补法(1)特殊值填充:将缺失值用特殊

机器学习之路--常用面试题目

该内容大部分来自<<百面机器学习算法工程师>> 1.特征工程 1.1为什么需要对数值类型进行归一化? 使各个指标处于同一数值量级,消除数据之间的量纲影响. 比如分析一个人的身高和体重对健康的影响. 1.2补充知识点 结构化数据:关系数据库的一张表,每列都有清晰的定义,包含了数值型和类别型 非结构化数据:文本,图像,音频,无法使用简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同 1.3方法 线性归一化(Min-Max Scaling) 它对原始数据进行线性变换,使结果

机器学习基础题目

1. 在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是: (AB)C 解析:首先,根据简单的矩阵知识,因为 A*B , A 的列数必须和 B 的行数相等.因此,可以排除C 选项. m*n 的矩阵 A 和 n*p 的矩阵 B 的乘积,得到 m*p 的矩阵 A*B ,而 A*B 的每个元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m*n*p 次乘法运算. 同

《机器学习实战》学习笔记:利用Adaboost元算法提高分类性能

一. 关于boosting算法的起源 boost 算法系列的起源来自于PAC Learnability(直译过来称为:PAC 可学习性).这套理论主要研究的是什么时候一个问题是可被学习的. 我们知道,可计算性在计算理论中已经有定义,而可学习性正是PAC Learnability理论所要定义的内容.另外,在计算理论中还有很大一部分精力花在研究问题是可计算的时候,其复杂度又是什么样的.因此,在计算学习理论中,也有研究可学习的问题的复杂度的内容,主要是样本复杂度 (Sample Complexity)

NTU-Coursera机器学习:HomeWork 1 Q15-20

Question15 训练数据格式如下: 输入有4个维度,输出为{-1,+1}.共有400条数据. 题目要求将权向量元素初始化为0,然后使用"Naive Cycle"遍历训练集,求停止迭代时共对权向量更新了几次. 所谓"Naive Cycle"指的是在某数据条目x(i)上发现错误并更新权向量后,下次从x(i+1)继续读数据,而不是回到第一条数据x(0)从头开始. #include <fstream> #include <iostream> #

【机器学习】一些基本概念及符号系统

注:其实自认为还是非常喜欢数学的,但是对于复杂的公式还是有种恐惧感,就像最开始学英语时,对英语的感觉一样.但是数学与英语不同的地方在于,你可以尽情的刨根问底,从最基础的知识开始了解,直到最终把一个符号或者公式的含义弄明白.在机器学习的过程中,也会碰到各种各样的符号,尤其是遇到多参数,多样本的情况时,更是让人眼花缭乱.最近学习完coursera上吴恩达的机器学习前两周的课程,有种豁然开朗的感觉.在此做一个小结. 1. 一些基本概念 图1. 机器学习的基本过程 训练集(Training Set):为

2016计算机大会后记——机器学习:发展与未来

后记转载请标明出处 报告题目:机器学习:发展与未来 报告人:周志华 演讲摘要:在过去二十年中,人类收集.存储.传输.处理数据的能力取得了飞速发展,亟需能有效地对数据进行分析利用的计算机算法.机器学习作为智能数据分析算法的源泉,顺应了大时代的这个迫切需求,因此自然地取得了巨大的发展.受到了广泛关注. 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键.它的经典定义是:利用经验改善系统自身的性能.将经验转化为数据.随着该领域的发展,目前主要研究智能数据分析的理论和算法,并已成为智能数据