R语言生存分析可视化分析

完整原文链接:http://tecdat.cn/?p=5438

生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。

生存分析被用于各种领域,例如:

癌症研究为患者生存时间分析,

“事件历史分析”的社会学

在工程的“故障时间分析”。

在癌症研究中,典型的研究问题如下:

某些临床特征对患者的生存有何影响?

个人三年存活的概率是多少?

各组患者的生存率有差异吗?

基本概念

在这里,我们从定义生存分析的基本术语开始,包括:

生存时间和事件

生存功能和危险功能

癌症研究中的生存时间和事件类型

有不同类型的事件,包括:

复发

死亡

从“应对治疗”(完全缓解)到发生感兴趣事件的时间通常称为生存时间(或事件发生的时间)。

癌症研究中两个最重要的措施包括:i)死亡时间;和ii)无复发存活时间,其对应于治疗反应与疾病复发之间的时间。它也被称为无病生存时间和无事件生存时间

如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的预期持续时间。

Kaplan-Meier生存评估

Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存概率(Kaplan和Meier,1958)。

知识管理生存曲线是知识管理生存概率与时间的关系曲线,它提供了一个有用的数据总结,可以用来估计诸如中位生存时间之类的衡量指标。

R生存分析

安装并加载所需的R包

我们将使用两个R包:

生存计算生存分析

survminer的总结和可视化生存分析结果

安装软件包

install.packages(c("survival","survminer"))

加载包

library("survival")library("survminer")

示例数据集

我们将使用生存包中提供的肺癌数据。

data("lung")head(lung)

inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss1    3  306      2  74  1      1      90      100    1175      NA2    3  455      2  68  1      0      90        90    1225      153    3 1010      1  56  1      0      90        90      NA      154    5  210      2  57  1      1      90        60    1150      115    1  883      2  60  1      0      100        90      NA      06  12 1022      1  74  1      1      50        80      513      0

inst:机构代码

时间:以天为单位的生存时间

状态:审查状态1 =审查,2 =死亡

年龄:年龄

性别:男= 1女= 2

ph.ecog:ECOG表现评分(0 =好5 =死)

ph.karno:Karnofsky表现评分(bad = 0-好= 100)由医师评定

pat.karno:Karnofsky表现评分由患者评估

膳食:餐时消耗的卡路里

wt.loss:过去六个月的体重下降

计算生存曲线:survfit()

我们要按性别来计算生存概率。

功能survfit()[在存活包]可以被用来计算Kaplan-Meier存活估计。其主要论??点包括:

使用函数Surv()创建的生存对象

要计算生存曲线,请输入以下内容:

fit<-survfit(Surv(time,status)~sex,data=lung)print(fit)

Call: survfit(formula = Surv(time, status) ~ sex, data = lung)n events median 0.95LCL 0.95UCLsex=1 138    112    270    212    310sex=2  90    53    426    348    550

默认情况下,函数print()显示生存曲线的简短摘要。它显示观察次数,事件数量,中位数生存和中位数的置信限。

如果要显示生存曲线的更完整摘要,请输入以下内容:

# Summary of survival curvessummary(fit)# Access to the sort summary tablesummary(fit)$table

可视化生存曲线

我们 生成两组受试者的生存曲线。

?

legend.labs更改图例标签。

?

每组的中位生存时间表示生存概率S(t)为0.5的时间。

使用参数xlim可以缩短生存曲线,如下所示:

?

请注意,可以使用参数fun指定三个经常使用的转换:

?

累积性危险是常用来估计危险概率。

?、

Kaplan-Meier生命表:生存曲线的总结

如上所述,您可以使用函数summary()来获得生存曲线的完整摘要:

summary(fit)

在生存曲线已经与一个或多个变量拟合的情况下,surv_summary对象包含表示变量的额外列。这使得有可能根据地层或某些因素的组合来面对ggsurvplot的输出。

 

Log-Rank检验比较生存曲线:survdiff()

数秩检验是比较两条或更多条生存曲线的最广泛使用的方法。零假设是两组在生存期间没有差异。

可以使用survdiff()如下:

surv_diff<-survdiff(Surv(time,status)~sex,data=lung)surv_diff

Call:survdiff(formula = Surv(time, status) ~ sex, data = lung)N Observed Expected (O-E)^2/E (O-E)^2/Vsex=1 138      112    91.6      4.55      10.3sex=2  90      53    73.4      5.68      10.3Chisq= 10.3  on 1 degrees of freedom, p= 0.00131

存活率差异的对数秩检验给出p = 0.0013的p值,表明性别组在存活方面差异显着。

 复杂的生存曲线

在本节中,我们将使用多个因素的组合计算生存曲线。接下来,我们将面向ggsurvplot()的输出结合因素

 fit2<-survfit(Surv(time,status)~sex+rx+adhere,data=colon)

使用幸存者可视化输出。下面的图显示了性别变量根据rx&adhere的值生存的曲线。

?

生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。

生存分析被用于各种领域,例如:

癌症研究为患者生存时间分析,

“事件历史分析”的社会学

在工程的“故障时间分析”。

在癌症研究中,典型的研究问题如下:

某些临床特征对患者的生存有何影响?

个人三年存活的概率是多少?

各组患者的生存率有差异吗?

概要

生存分析是一组数据分析的统计方法,其中感兴趣的结果变量是事件发生之前的时间。

在这篇文章中,我们演示了如何使用两个R软件包的组合来执行和可视化生存分析:生存(用于分析)和生存者(用于可视化)。

有问题欢迎联系我们!

大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服

?QQ:3025393450

?

【服务场景】  

科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询

欢迎选修我们的R语言数据分析挖掘必知必会课程!

原文地址:https://www.cnblogs.com/tecdat/p/11324615.html

时间: 2024-09-29 05:50:22

R语言生存分析可视化分析的相关文章

R语言基础(二) 可视化基础

> which.max(apply(x[c("x1","x2","x3")], 1, sum))49 > x$num[which.max(apply(x[c("x1","x2","x3")], 1, sum))][1] 2005138149 > hist(x$x1) > plot(x$x1,x$x2) > table(x$x1) 80 81 82 83 84

R语言:社会网络关系分析-进阶

本文内容参考李明<R语言与网站分析>一书 下面使用R语言实现社会网络分析的各个基础概念 # (1) 点集合(Vertexs)和点的属性数据 # 使用V(g)可返回关系网络g中所有点的集合V,并通过length函数直接返回点数目n.代码如下: V(g.undir) ## Vertex sequence: ## [1] 1 2 3 4 5 6 7 length(V(g.undir)) ## [1] 7 # 在g.undir中记录了点名称属性数据V(g.undir)$label,这里也可以直接展示.

R语言笔记4--图形分析

  1.对x1进行直方图分析,绘制直方图hist()       2.探索各科成绩的关联关系,散点图绘制函数plot()            3.列联表分析,列联函数table(),柱状图绘制函数barplot() 4.饼图,饼图绘制函数pie()     5.箱尾图 箱子的上下横线为样本的25%和75%分位数 箱子中间的横线为样本的中位数 上下延伸的直线为尾线,尾线的尽头为最高值和最低值 异常值            6.箱线图      7.相图 每个观测单位的数值表示为一个图形 每个图的

R语言使用Rasch模型分析学生答题能力

原文链接:http://tecdat.cn/?p=10175 几个月以来,我一直对序数回归与项目响应理论(IRT)之间的关系感兴趣. 在这篇文章中,我重点介绍Rasch分析. 最近,我花了点时间尝试理解不同的估算方法.三种最常见的估算方法是: 联合最大似然(JML) 条件逻辑回归,在文献中称为条件最大似然(CML). 标准多级模型,在测量文献中称为边际最大似然(MML). 阅读后,我决定尝试进行Rasch分析,产生多个Rasch输出. 示范 进行此演示之后,可能需要ggplot2和dplyr的知

R语言&amp;页游渠道分析(转)

对着满屏的游戏后台数据,需要快速了解数据特征,一种茫然无从下手的感觉? 本文在游戏后台数据中,如何通过R语言快速的了解游戏后台的数据特征,以及统计各个数据之间的相关系数,并通过相关图来发现其中相关系数较高的数据,从而通过R得到高相关系数之间的线性回归方程,最后通过矩阵散点图来初步发现数据中的一些规律解决相应的问题.附:本文需要安装corrgram和car包 具体代码如下: library(corrgram) library(car) summary(data9) cor(data9) scatt

R语言之数据可视化 - R的绘图颜色

5. R语言绘图之 颜色 · grDevice 包 - colorRamp() 和 colorRampPalette() - 颜色名字可使用 colors() 获取 · RColorBrewer 包 - 三类调色板: 1. sequential:从一个极端渐变到另一个极端,适合用于呈现顺序数据 2. diverging:两端鲜艳而中间较淡,适合凸显处在极端的数值,即想强调高低对比时可选择 3. qualitative:颜色间对比鲜明,适合呈现分类变量 - 调色板信息可与 colorRamp /

R语言:利用相关性分析对复杂数据进行数据探索

cor(1:5,1:5) ## [1] 1 cor(1:5,5:1) ## [1] -1 cor(1:5,c(1,2,3,4,4)) ## [1] 0.9701 cor(1:5,c(1,2,3,1,4)) ## [1] 0.6063 library(RCurl) ## Loading required package: bitops urlfile<-"http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.

r语言学习笔记:分析学生的考试成绩

测试数学为某一年级所有班的所有科目的考试成绩表,为了不泄漏孩子的姓名,就用学号代替了.谁感觉兴趣,可以下载测试数据. num class chn math eng phy chem politics bio history geo pe0158 3 99 120 114 70 49.5 50 49 48.5 49.5 600442 7 107 120 118.5 68.6 43 49 48.5 48.5 49 560249 4 98 120 116 70 47.5 47 49 47.5 49 6

R语言之数据可视化

R中有四大框架用于产生图形,基本图形,网格,格子和ggplot2. 分类数据的可视化使用条形图.点图.柱形图.脊柱图.马赛克图.饼图及四折图连续数据的可视化使用箱线图.直方图.散点图及其变种.帕累托图 ============================================== 一.分类数据的可视化 1.条形图条形图可以通过graphics库中的barplot函数实现,也可以通过lattice包的barplot函数实现,我们使用RSADBE包中的数据进行举例 (1)> libra