一.基础理解 1)公式 k:数据集中样本类型数量: Pi:第 i 类样本的数量占总样本数量的比例 2)实例计算基尼系数 3 种情况计算基尼系数: 基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小: G 越大,数据的不确定性越高: G 越小,数据的不确定性越低: G = 0,数据集中的所有样本都是同一类别: 3)只有两种类别的数据集 x:两类样本中,其中一类样本数量所占全部样本的比例: 当 x = 0.5,两类样本数量相等时,数据集的确定性最低: 二.使用基尼系数划分节点数据集 1)格式
推荐系统是由一个或者多个算法和策略组成的这样一个系统,其商业价值在于实现产品提供者.产品用户以及推荐平三者的利益共赢.无论从算法的角度还是从商业的角度,效果好不好都是我们所关心的问题,所以实践者们对推荐系统系统提出了各种各样的评测指标来衡量其优劣性和适用性. 在介绍这些评测指标之前,我们先要知道一般会用什么样的方式获得评测指标.在推荐系统中,主要有三种实验方式,用以获得不同的指标,分别是离线实验(offline experiment).用户调查(user study)和在线实验(online e