在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。
针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。
1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”;
2、增加反例的数目平衡数据,再分类,这种称为“过采样”;
3、阈值移动:直接使用原始数据进行分类,但在用训练好的分类器进行预测时,将下式加入到决策过程中,以调整正反例的平衡性。
原文地址:https://www.cnblogs.com/luban/p/9414468.html
时间: 2024-10-31 15:28:18