泰坦尼克数据集描述:
案例数:1309
特征数:14个,包括年龄,性别,仓位等
总存活率:38%
统计描述部分只详细看仓位和性别这两个特征值,以及它们的联合起来对生存率的影响,我们通过简单的三张统计表格就可以发现数据具有欺骗与真实的双面性。
从男女各自的总幸存率看,男女幸存比大约为1:2,单从这点看男女幸存的比例并不是很悬殊。但是结合人数占比,男性大约占了6.5成,就可以看出总幸存比并不能很好的描述泰坦尼克中男女幸存的真实情况,最能反映性别幸存差异的是男女在各自性别中的幸存比例,可以看到男性的死亡率超过了八成!女性的幸存率达到了73%!接下来我们继续看仓位的情况。
从总幸存率来看,头等舱和末等舱的存活率几乎是相同的,死亡率最高的是中等舱。但是真实情况真的是这样吗?再看幸存占比,幸存占比的反映的情况跟总存活率差不多,但是我们再看人数占比,就会发现前面两者反映出来并不是正真的事实,因为如果按照人数占比去推算幸存人数,那末等舱的幸存率应该超过5成才是合理的,但是统计出来的数据却只有不到4成!真正能反映事实的是各自舱位的幸存率,可以很明显的看到所谓中等舱死亡率最高只是一种假象,恰恰相反的是中等舱的幸存率接近了5成!而看似生存率跟头等舱一样的末等舱才是真正的死亡深渊!接着我们来看看舱位和性别对存活有怎么样的影响。
原文地址:https://www.cnblogs.com/kogmaw/p/12609781.html
时间: 2024-10-08 15:00:53