性能评价

能评价:

分类任务可以分为两个子集:“相关的”、“不相关的”。

精确率:“相关的”子集中的正确的样本的比例。

召回率:实际“相关的”子集中正确标注的样本的比例。

    预测结果 标注结果
    正例 负例
黄金标准 正例 真正的正例(tp) 错误的负例(fn)
标注结果 负例 错误的正例(fp) 真正的负例(tn)

精确率:$P = \frac{tp}{tp+fp}$ 正样本中有多少被分类为正样本

召回率:$R = \frac{tp}{tp+fn}$  分类为正样本的样本中有多少是真正的正样本

准确率:$A = \frac{tp+tn}{tp+fp+fn+tn}$

F值:P和R的结合

(来自于知乎中修宇亮的回答 https://www.zhihu.com/question/27068705)

Bias和Variance是针对Generalization(一般化,泛化)来说的。

Error = Variance (方差)+ Bias(偏差)

准:bias描述的是根据样本拟合出的模型输出的预测结果的期望与样本真实结果的差距,即在样本上拟合得好不好。想要在bias上表现的好,即获得low bias,就是要将模型复杂化,增加模型的参数,但这样很容易过拟合,对应上图中右上角的图,点都在中心附近,但很分散。

确:varience描述的是在样本上训练出来的模型在测试集上的表现,想要在varience上表现好,即获得low varience,就要将模型简单化,减少模型的参数,但这样容易欠拟合,对应上图中左下角的图,点很集中但偏离中心。

训练一个模型的最终目的,是为了让这个模型在测试数据上表现好,也就是test的error比较小,但在现实问题中,test data 我们是不知道的,不知道test data的内在规律,那么该如何减小test error呢?

分两步:

1)让train error 尽可能小

2)让train error 尽可能等于 test error

(因为A小,而A=B,那么B就小。)

让train error 尽可能小 ----》将模型复杂化,增加参数 ----》low bias

让train error 尽可能等于 test error ----》将模型简单化,减少参数。train error = test error 意味着模型对所有数据没有偏见,对所有数据一视同仁,更具有通用性 ----》low varience

时间: 2024-08-06 18:33:23

性能评价的相关文章

网络性能评价方法

网络性能评价的实现 网络的优劣会影响网络交互的延迟时间.稳定性和速度,从用户体验上集中表现为打开页面的速度缓慢.比如在较差的网络并发的请求数会被降低,以避免网络性能因为阻塞而进一步恶化. 针对不同网络品质的优化的前提就是要有一种方法来度量网络的品质. 目前度量网络的品质的方法如果仅以网络连接类型来区分,比如2G, 3G, Wifi等,无法有效感知到当时的网络状态.在同一网络连接类型下,网络的品质仍有大幅波动,可能会因为阻塞以及线路上问题导致延迟上抖动(jitter).丢失数据包.数据包损坏等情况

系统分析师笔记-系统配置与性能评价

系统配置与性能评价 软件容错技术:恢复快方法.N版程序设计和防卫式程序设计(错误检测.破坏估计.错误恢复). 恢复策略:前向恢复.后向恢复. 冗余指的是系统规定功能时多余的那部分资源:1,结构(硬件)冗余(静态冗余.动态冗余.混合冗余) 2,信息冗余 3,时间冗余 4,冗余附加(软件). 计算机性能评估常用方法: 1,时钟频率发. 2,指令执行速度.加法的指令速度大体可反映乘除法等其它算术运算的速度.逻辑运算.转移指令往往和加法相同. 3,等效指令速度法.通过程序指令在程序所占的比例来计算. 4

系统配置与性能评价

知识点: 系统配置方法:双份.双重.热备份.容错.集群. 性能计算:响应时间.吞吐量.TAT. 性能设计:系统调整.Amdahl解决方案.响应特性.负载均衡. 性能指标:SPEC-Int.SPEC-Fp.TPC.Gibsonmix.响应时间. 性能评估:可靠性分析.故障模型.集群技术. Part 1:性能指标 1. 计算机 时钟频率(主频) 高速缓存 运算速度 运算精度 内存的存储容量 存储器的存取周期 数据处理速率 响应时间 RASIS特性(Realiability, Availability

图像分割性能评价

采用定量的方式计算分割结果图像的性能指标,并以此评价分割的效果,具有客观.可重复等优点. 根据是否需要理想分割的参考结果图像,可将评价方法分为两类: 无监督评价法.通过分割结果图像的质量参数来评价相应的分割算法. 有监督评价法.将算法分割结果图像与理想分割的参考图像进行对比. 1. 无监督评价法 无监督评价法通过直接计算分割结果图像的特征参数来评价分割效果,其优势在于不需要理想分割的参考图像.分割结果图像的特征参数又称为指标或者测度. 无监督评价的指标一般分为: 区域内一致性指标 区域间差异性指

图像切割性能评价

採用定量的方式计算切割结果图像的性能指标,并以此评价切割的效果,具有客观.可反复等长处. 依据是否须要理想切割的參考结果图像.可将评价方法分为两类: 无监督评价法.通过切割结果图像的质量參数来评价相应的切割算法. 有监督评价法. 将算法切割结果图像与理想分割的參考图像进行对比. 1. 无监督评价法 无监督评价法通过直接计算切割结果图像的特征參数来评价切割效果,其优势在于不须要理想切割的參考图像.切割结果图像的特征參数又称为指标或者測度. 无监督评价的指标一般分为: 区域内一致性指标 区域间差异性

系统性能评价

系统性能呢个是一个系统提供给用户的准更多性能指标的混合体,它既包括硬件性能,也包括软件性能. 根据应用细化的:有整数运算,浮点运算,响应时间,网络带宽,稳定性,I/O吞吐量,SPEC-Int.SPEC-Fp.TPC.Gibson mix 等 .SPEC ---测试CPU性能 的权威. 两个分支:1.作为未来计算机技术发展的参考和规划:2.对现有系统进行性能上的调整已达到最优化. 系统性能的4个方面 性能指标:描述当前流行系统主要涉及的性能指标: 性能计算:描述当前使用到的主要性能指标的计算方法

[2]系统配置与性能评价

平均故障间隔时间 MTBF,用于衡量产品可靠性的一个指标. 可靠性 在规定的时间内,产品保持正常功能的一种能力. 原文地址:https://www.cnblogs.com/rockyching2009/p/11615899.html

1.2 计算机系统性能评价

2020-03-02 非时间指标 1)机器字长:指机器一次能处理二进制位数 由加法器.寄存器的位数决定 一般与内部寄存器的位数等长(字长) 字长越长,表示数据的范围就越大,精确度越高: 目前常见的:32位和64位字长 2)总线宽度:指数据总线一次能并行传送的最大信息的位数 一般指运算器与存储器之间的数据总线位数. 有些计算机内部与外部数据总线宽度不一致: 3)主存容量与存储带宽 主存容量:指一台计算机主存所包含的存储单元总数. 存储带宽:指单位时间与主存交换的二进制信息量,常用单位B/s(字节/

操作系统基础知识

操作系统的分类: 批处理操作系统.分时操作系统.实时操作系统.网络操作系统.分布式操作系统.个人计算机操作系统. 批处理操作系统: 优:资源共享,自动调度,提高了资源利用率和系统分吞吐量. 劣:无交互,周转时间较长. 多道批处理程序要处理的问题:同步互斥,内存大小,使用效率,内存保护 分时系统:联机多用户交互式操作系统,中断技术,时间片轮转 优:人机交互性好,共享主机 ,用户独立性 实时操作系统:联机系统,对外部请求能够在规定的时间内完成. 特点:有限等待 有限响应 用户控制 可靠性高 出错处理