泰坦尼克生存分析

泰坦尼克数据集描述：

　　案例数：1309

　　特征数：14个，包括年龄，性别，仓位等

　　总存活率：38%

统计描述部分只详细看仓位和性别这两个特征值，以及它们的联合起来对生存率的影响，我们通过简单的三张统计表格就可以发现数据具有欺骗与真实的双面性。

从男女各自的总幸存率看，男女幸存比大约为1:2，单从这点看男女幸存的比例并不是很悬殊。但是结合人数占比，男性大约占了6.5成，就可以看出总幸存比并不能很好的描述泰坦尼克中男女幸存的真实情况，最能反映性别幸存差异的是男女在各自性别中的幸存比例，可以看到男性的死亡率超过了八成！女性的幸存率达到了73%！接下来我们继续看仓位的情况。

从总幸存率来看，头等舱和末等舱的存活率几乎是相同的，死亡率最高的是中等舱。但是真实情况真的是这样吗？再看幸存占比，幸存占比的反映的情况跟总存活率差不多，但是我们再看人数占比，就会发现前面两者反映出来并不是正真的事实，因为如果按照人数占比去推算幸存人数，那末等舱的幸存率应该超过5成才是合理的，但是统计出来的数据却只有不到4成！真正能反映事实的是各自舱位的幸存率，可以很明显的看到所谓中等舱死亡率最高只是一种假象，恰恰相反的是中等舱的幸存率接近了5成！而看似生存率跟头等舱一样的末等舱才是真正的死亡深渊！接着我们来看看舱位和性别对存活有怎么样的影响。

原文地址：https://www.cnblogs.com/kogmaw/p/12609781.html

时间： 2024-10-08 15:00:53

泰坦尼克生存分析的相关文章

利用python进行泰坦尼克生存预测——数据探索分析

最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式. 数据挖掘的一般过程是:数据预览-->数据预处理(缺失值.离散值等)-->变量转换(构造新的衍生变量)-->数据探索(提取特征)-->训练-->调优-->验证 1 数据预览 1.1 head() 预览数据集的前面几条数据可以大致

Kaggle泰坦尼克数据科学解决方案

原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions 看完一遍,什么也没记住,于是干脆直接翻译一遍. 然鹅,依旧没记住什么. ---------------------------------------------------------------- p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px SimSun } p.p1 { margin:

survival analysis 生存分析与R 语言示例入门篇

生存分析,survival analysis,顾名思义是用来研究个体的存活概率与时间的关系.例如研究病人感染了病毒后,多长时间会死亡:工作的机器多长时间会发生崩溃等. 这里“个体的存活”可以推广抽象成某些关注的事件. 所以SA就成了研究某一事件与它的发生时间的联系的方法.这个方法广泛的用在医学.生物学等学科上,近年来也越来越多人用在互联网数据挖掘中,例如用survival analysis去预测信息在社交网络的传播程度,或者去预测用户流失的概率. R里面有很成熟的SA工具. 本文介绍生存分析的

生存分析

在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等. 这种分析的特点是追踪研究的对象都要经过一段时间,而且经常会碰到出于某种原因无法继续追踪的情况. 生存分析就是用来研究这段追踪时间的分布规律以及相关因素的一种统计分析方法. 一.生存分析的一些概念 1.观察起点是指由研究者确定的研究开始时的时间 2.终点事件是指由研究者确定的某种发生的事件,这种事件必须明确定义,而且并不一定是消极事件 3.生存时间是指从观察起点到终点事件发生

Spark2 生存分析Survival regression

在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型. 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型. 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数. 当在具有常量非零列的数据集上匹配AFTSurvivalRegressionModel而没有截距时,Spark MLlib为常量非零列输出零系数. 这种行为不同于R survival :: survreg. 导入包 import org.

Cox回归模型【生存分析】

参考:<复杂数据统计方法——基于R的应用> 吴喜之在生存分析中,研究的主要对象是寿命超过某一时间的概率.还可以描述其他一些事情发生的概率,例如产品的失效.出狱犯人第一次犯罪.失业人员第一次找到工作.青少年第一次吸毒等等. 生存函数S(t): S(t)=P(T>t)=1-P(T<=t),t>0 T:表示寿命的随机变量 t:特定时间综合生存函数图:用到包survival 案例:口腔癌数据

小丸子踏入python之路：python_day05（用Pandas处理泰坦尼克船员获救数据titanic_train.csv）

泰坦尼克船员获救数据: titanic_train.csv 用excel打开数据集.显示如下: 写在前边: 为了方便以后运用numpy和pandas的库,分别造它们的别名np和pd. import pandas as pd #造pandas的别名为pd import numpy as np #造numpy的别名为np 一.读取数据 import pandas as pd #造pandas的别名为pd import numpy as np #造numpy的别名为np #泰坦尼克号船员获救数据 ti

利用KNIME建立Spark Machine learning模型 2：泰坦尼克幸存预测

本文利用KNIME基于Spark决策树模型算法,通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练,得出决策树幸存模型,并利用测试数据集对模型进行测试. 1.从Kaggle网站下载训练数据集和测试数据集 2.在KNIME创建新的Workflow,起名:TitanicKNIMESpark 3. 读取训练数据集 KNIME支持从Hadoop集群读取数据,本文为了简化流程直接从本地读取数据集. 在Node Repository的搜索框里输入CSV Reader,找到CSV Reader节点,

R语言生存分析可视化分析

完整原文链接:http://tecdat.cn/?p=5438 生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间. 生存分析被用于各种领域,例如: 癌症研究为患者生存时间分析, “事件历史分析”的社会学在工程的“故障时间分析”. 在癌症研究中,典型的研究问题如下: 某些临床特征对患者的生存有何影响? 个人三年存活的概率是多少? 各组患者的生存率有差异吗? 基本概念在这里,我们从定义生存分析的基本术语开始,包括: 生存时间和事件生存功能和危险功能癌症研究中的生存时间和事件类型

猜你喜欢

Django部署到Apache服务器

Django项目本身就可以启动运行,为什么还需要部署到Apache或者Nginx上呢?初学者都会遇到这个问题,我们来看看官方解释:It's intended only for use while de ...

bzoj3882 [Wc2015]K小割

Description Input Output Sample Input 3 3 1 3 100 1 2 3 2 3 4 1 3 5 Sample Output 8 9 12 -1 正解:暴搜+堆+ ...

【bzoj3110】[Zjoi2013]K大数查询

Description 有N个位置,M个操作.操作有两种,每次操作如果是1 a b c的形式表示在第a个位置到第b个位置,每个位置加入一个数c如果是2 a b c形式,表示询问从第a个位置到第b个位置 ...

classid是什么意思？

这几天在看javascript这门语言的时候发现在为html中插入ActiveX控件的时候, 提到了一个classid的刺这个是一个属性. 它代表的意思是: id是元素的名称,可以供js或其它脚本程 ...

iOS开发--四种多线程技术方案

iOS 多线程的四种技术方案 image pthread 实现多线程操作代码实现: void * run(void *param) { for (NSInteger i = 0; i < 10 ...

白话C++系列（10）--对象的生离死别

对象的生离死别思考:实例化的对象是如何在内存中存储的? 思考:类中的代码又是如何存储的? 思考:数据和代码之间又有怎样的关系呢? 带着这些问题,先学习一下对象的结构对象结构要想为大家说清对象是如 ...

java 语言多线程可见性（synchronized 和 volatile 学习）

共享变量可见性实现的原理 java 语言层面支持的可见性实现方式: synchronized volatile 1. synchronized 的两条规定: 1 线程解锁前,必须把共享变量的最新值刷新 ...

窗体美化

http://files.cnblogs.com/xe2011/WINFORM%E5%B8%A6%E9%98%B4%E5%BD%B1%E7%9A%84%E8%87%AA%E5%AE%9A%E7%AA% ...

go windows 编程

golang windowns 编程包下载 windows需要先安装git for Windows go get github.com/lxn/walk go get github.com/lxn/w ...

【模板】邻接链表

int n,m; //n表示点数,m表示边数 int first[maxn]; //first数组代表一个点所指向的边 int u[maxm],v[maxm],w[maxm],next[maxm]; ...

pt-pmp

pt-pmp有两方面的作用:一是获取进程的堆栈信息,二是对这些堆栈信息进行汇总. 进程的堆栈信息是利用gdb获取的,所以在获取的过程中,会对mysql服务端的性能有一定的影响. 用官方的话说: Thi ...

1-3-20:计算2的幂

描述给定非负整数n,求2n. 输入一个整数n.0 <= n < 31.输出一个整数,即2的n次方.样例输入 3 样例输出 8 1 #include<stdio.h> 2 #i ...

[OS X]PyQt5的安装过程

1. 下载并安装Qt [2015年6月:下载地址] 在安装的过程中,会选择安装路径.默认路径为 /Users/ijkcherry/Qt5.4.2/ . 2. 下载并安装SIP [2015年6月:下载地 ...

计蒜客16492 building（二分线段树/分块）

题解: 考虑用线段树维护楼的最大值,然后这个问题就很简单了. 每次可以向左二分出比x高的第一个楼a,同理也可以向右二分出另一个楼b,如果a,b都存在,答案就是b-a-1. 注意到二分是可以直接在线段树 ...

[LeetCode] Delete Duplicate Emails 删除重复邮箱

Write a SQL query to delete all duplicate email entries in a table named Person, keeping only unique ...

windows server 注意windows的temp目录

windows解压缩包.安装软件时,会生成一些临时文件存放在temp目录中,windows不会自动删除这些文件. 临时文件目录可以在环境变量中查看和配置在工作机or个人PC机中中这个目录一般不会有什 ...

BZOJ 1729: [Usaco2005 dec]Cow Patterns 牛的模式匹配

Description 约翰的N(1≤N≤100000)只奶牛中出现了K(1≤K≤25000)只爱惹麻烦的坏蛋．奶牛们按一定的顺序排队的时候,这些坏蛋总会站在一起．为了找出这些坏蛋,约翰让他的奶牛排好 ...

两个开源项目要搞定

OpenRTMFP服务器的编译.运行(Windows环境下,VS2010开发环境) http://blog.csdn.net/cashey1991/article/details/8560546 op ...

微信小程序--摸索之旅

首先奉上腾讯官方文档方便参考:https://mp.weixin.qq.com/debug/wxadoc/design/index.html 个人认为没说啥特别有用的信息(可能是我看的太粗糙了) ...

springMVC笔记（二）- SimpleUrlHandlerMapping

SpringMVC里面有许多HandlerMapping,对这块还不太了解,所以决定了解一下这些东东的作用. 先来看第一个:org.springframework.web.servlet.handle ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.