OR、HR、RR:三个经常把人弄晕的概念

AME统计028|OR、HR、RR:三个经常把人弄晕的概念

Published at: February 15, 2016 2015年第1卷第S1期

胡志德

关键词:



编者按:【AME 统计】专栏自开设以来,一直以向读者推送各种统计学干货为宗旨,鼓励自由讨论。自本期起,统计学专栏将开设“有奖问答”环节(详情请见下文),欢迎读者踊跃参与,与我们一起学习,共同进步。



在医学统计学中,有三个关于比值的概念,分别为相对危险度(relative risk,RR,也称 risk ratio)、风险比(hazard ratio,HR)和优势比(odds ratio,OR)。很多同行一看见这三个概念就感觉恶心反胃、头皮发麻、窦性心动过速,大有雾里看花,水中望月的感觉。在此,笔者拟谈谈如何正确理解这三个概念的区别和联系。

我们以病因学研究为例,先谈谈 OR 与 RR 的区别,因为这两个指标均可以从四格表中衍生出来。我们先来看看两个关于吸烟与肺癌的例子:

例1:为明确吸烟与肺癌的关系,某研究者在 1985 年随机调查了某社区的 10000 名居民,并每年对其进行随访,以观察其肺癌的发生状况在刚刚进行调查的时候,他就发现这 10000 个居民中有 3000 人吸烟,7000 人不吸烟。在本例中,我们假定吸烟和不吸烟居民之间不存在交叉污染,即吸烟的 3000 人永远不会戒烟,而不吸烟的 7000人 也永远不会吸烟。且这 10000 个人不会失访。随访 30 年后,吸烟的 3000 人中有 300 人得了肺癌。相比之下,不吸烟的 7000 人中仅有 70 人患肺癌。如表1所示:

表1 吸烟与肺癌的关系

 
患肺癌


无肺癌


吸烟


300(a)


2700(b)


不吸烟


70(c)


6930(d)

RR 的定义是:暴露组发病率或死亡率与非暴露组发病率或死亡率之比。

在本案例中,吸烟人群 30 年内发生肺癌的比例为 0.10(300/3000),而不吸烟人群发生肺癌的比例为 0.01(70/7000)。因此,与非吸烟人群相比,吸烟人群发生肺癌的相对危险度(RR)为:0.10/0.01=10,即可以认为吸烟人群 30 年内发生肺癌的风险是非吸烟人群的 10 倍。实际上,不难看出,RR 在四格表中的计算公式就是:RR=(a/(a+b))/(c/(c+d))。

例2:某医生怀疑吸烟与肺癌有关,因为他发现自己经手的很多肺癌患者都有吸烟史。于是他在 2015 年找了 100 名肺癌患者和 100 名健康对照,回溯了他们的过去 30 年的吸烟史,结果发现:100 名肺癌患者中 90 名患者有吸烟史,100 名健康个体中仅有20人有吸烟史。如表2所示:

表2 吸烟与肺癌的关系

 
吸烟


不吸烟


肺癌


90(a)


10(b)


健康个体


20(c)


80(d)

OR 的定义是:病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。这里的“暴露”其实就是指“吸烟”。在本案例中,肺癌组暴露人数与非暴露人数的比值为 9(90/10),而在健康个体中,暴露人数与非暴露人数的比值为 0.25(20/80)。因此,OR 为:9/0.25=36。由此我们也不难看出,OR 在四格表中的计算公式为:OR=ad/bc。

部分读者看到这里可能觉得有点糊,按理说 RR 的临床解释最为清晰,说得通俗点就是:吸烟个体发生肺癌的风险是非吸烟个体的多少倍。相比之下,OR 的临床解释则要复杂得多。为何表1用 RR 来描述吸烟与肺癌的关联强度,表2则要用 OR 来描述呢?按理说,只要是四格表,都可以计算 RR,为什么流行病学家还搞个 OR 在这里呢?的确,所有的四格表都可以计算 RR,比如我们将表2调整为如下格式(表3),当然也可以计算 RR:

表3 吸烟与肺癌的关系

 
患肺癌


无肺癌


吸烟


90


20


不吸烟


10


80

RR 的计算过程为:吸烟人群中有 110 名个体吸烟,90 例发生了肺癌,肺癌发生风险约为 0.82(90/110);不吸烟的 90 名个体中,仅有 10 人发生肺癌,因此肺癌的发生风险是 0.11(10/90)。因此与不吸烟的个体相比,吸烟个体发生肺癌的风险约为 7.45 倍(0.82/0.11)。

然而,表2绝对不能转化成表3的格式,这是有研究的性质决定的,表1的数据来源于队列研究,表2的数据来源于病例对照研究。

如前述章节(有病例和对照的研究就是病例-对照研究?实验组和对照组的样本量一定要“均衡”才行?)所述,队列研究和病例对照研究有很大的区别,这些区别概括起来就是:队列研究是前瞻性研究,是由因索果的研究;病例对照研究是回顾性研究,是由果索因的研究。前瞻性研究最大的优势在于:“真实世界”尚未发生,因为研究者可以详尽地描述“真实世界”,体现在:抽取的 10000 名研究对象实际上就是来自于“真实世界”的,因为研究者是从普通人群中随机抽取研究对象的;研究对象中吸烟个体的比例为 0.30,也是反映了真实情况,即现实生活中,吸烟个体的比例就是 0.30;随访 30 年后,总共有 370 人发生了肺癌(患病率为 3.7%),这一患病率也是来源于真实世界的结论。由于其得出的 RR 值是来自于真实世界的,因此具有“外推性”,或者说“泛化性”,可以直接地告诉人们吸烟的患者发生肺癌的风险是不吸烟患者的多少倍。

相比之下,病例对照研究就没有那么简单了,因为病例对照研究是先知道结局,再去回溯原因,此时,“真实世界”已经一去不复返了,哪里还能完整地回溯回来?研究者募集了 100 名肺癌患者和 100 名健康个体,实际上就是假定了肺癌的患病率为 0.50,这一数字显然不是来自于真实世界。在真实世界中,过去 30 年肺癌的发生了是多少呢?没有人会知道这个精确的数字。因此,如果强行用 RR 来展示病例对照研究结果的话,没有多大的临床价值,因为这个 RR 不是来自真实世界的,不具备“外推性”。流行病学家不得已,才在这里提出了一个 OR 的概念,用于反映暴露因素与结局事件的关联强度。如前所述,OR 这个指标在四格表中的计算公式:OR=ad/bc,实际上也可以表示为(a/b)/(c/d)。理论上讲,不管实验组样本为多少例,a/b 是不变的(当然可能会有一些小的波动,但属于抽样误差);同理,不管对照组样本量如何变化,c/d 的比例也是固定的。因此,OR 最大的优势的是不受实验组和对照组比例(或者说患病率)的影响。这也就是为什么在病例对照研究中人们喜欢用 OR 来表示暴露因素与结局事件关联强度的原因所在。

我们不妨来做一个根本就不存在的假设。我们假设表1中的队列研究的资料是完全存在的,只是没有发表。后来,有人用病例对照的研究思路来阐述吸烟与肺癌的关系。从表1我们得知,过去三十年,这个社区总共发生了 370 例肺癌,其中 300 个肺癌患者具有吸烟史,70 个不具有吸烟史。因此如果从中抽取 100 例肺癌的话,理论上说就应该是 81 个肺癌患者有吸烟史,19 个肺癌患者没有吸烟史。健康个体一共有 9630 个,其中 2700 个吸烟,6930 个不吸烟,如果从这 9630 个健康个体中抽取 100 人的话,就应该有 28 个人吸烟,72 个人不吸烟。于是可以得出下表(表4):

表4 吸烟与肺癌的关系

 
患肺癌


无肺癌


吸烟


81


28


不吸烟


19


72

根据表4的内容不难算出,与非吸烟个体相比,吸烟患者发生肺癌的 RR 是 3.56(计算过程略),该 RR 值与表1的 RR 值(10)相距甚远。假定我们抽取的健康个体不是 100 人,而是 200 人,则可以算出 RR 为 5.07(计算过程略)。由此可知,RR 在很大程度上受患病率的影响,病例对照研究之所以不能计算 RR,就是因为其患病率是假设的,就算勉强计算出 RR 也不具备外推性,没啥意思。

OR 的临床解释是什么呢?笔者一般不喜欢去解释,因为解释的文字读起来也很繁琐,且个人认为临床价值不高。对于我们而言,只需要记住 OR 大于 1 表示暴露因素是危险因素,OR 小于 1 则表示暴露因素是保护因素即可。

前述 OR 和 RR 都来源于四格表,即仅仅考虑了一个暴露因素(吸烟)与结局事件(肺癌)的关系。而在现实中,疾病的发生往往不是单一因素作用的结果。比如:假定吸烟的人都不太喜欢吃水果,而水果摄入过少也可以导致肺癌。因此很有可能出现一种极端的情况,其实吸烟与肺癌无关,我们之所以在队列研究或病例对照研究中观察到了吸烟与肺癌的关系,完全是“吃水果”作怪。此时,我们将“吃水果”称为“混杂因素”,即表示他们可能会干扰暴露因素与结局变量之间的关系。为了排除混杂因素的干扰,需要在统计学上做一些校正,比较常用的方法就是 Cox 风险比例模型和 logistic 回归模型。一说到 Cox 风险比例模型和 logistic 回归模型,估计很多读者的脑海里马上闪现两个概念,HR 和 OR。没错,这里的 OR 和四格表里面的 OR 其实就是一个意思,只是二者的计算方法不同。来自于 logistic 回归的 OR 可以校正很多混杂因素,因此是一个多因素校正的 OR,而来自于四格表的 OR 只考虑了单一因素,因此可以简单理解为单因素分析的 OR。在撰写论文的过程中,一般认为多因素校正的 OR 更可靠。实际上,如果把四格表的数据用单因素的 logistic 回归方程计算,得到的 OR 是一样的,有兴趣的读者可以自己算。

Cox 模型与 logistic 回归有很多相似之处,都可以用于校正混杂因素。根据 Cox 模型可以计算出 HR 值,HR 值的解释与 RR 几乎一致,即表示暴露组患病的概率为非暴露组的多少倍。但是与 logistic 回归不同的是,Cox 模型除了可以校正混杂因素外,还考虑了结局事件发生的时间。因此,HR 不能简单等同于 RR,只能说 HR 是考虑了时间因素的 RR。说得这里,估计部分读者有点糊,啥叫“考虑了时间因素的 RR”?我们不妨来做这样一个假设:在表1中(队列研究)中,RR 为 10,我们可以理解为:与不吸烟人群相比,吸烟人群在 30 年内患肺癌的风险是不吸烟人群的10倍。注意“30 年内患肺癌的风险”,这是一个很含糊的说法:有人可能在随访开始第二年就发生肺癌,有人可能到随访快结束时(第三十年)才发生肺癌。如果构建四格表,这两个肺癌是同等看待的,但实际上,这两种肺癌的“社会危害性”显然是不能相提并论的!毕竟后者很有可能会多活二十多年。因此,我们在考虑结局事件是否发生的同时,往往还要考虑结局事件发生的时间!这就是 HR 存在的价值!

总结一下本文,以研究疾病发生机制的研究为例来谈谈 RR,OR 和 HR 的区别,实际上,研究疾病预后的研究也可以类推。

RR:主要用于队列研究,可以从四格表衍生出来,表示暴露患者发生疾病的风险是非暴露患者的多少倍。

OR:主要用于病例对照研究和横断面研究,可以从四格表中衍生出来,也可以由logistic回归计算得来,表示病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。

HR:主要用于队列研究,主要由 Cox 风险比例模型衍生出来,是考虑了时间因素的 RR。

最后留下一个问题给大家思考:

对前瞻性队列研究数据的分析,可以用 logistic 回归计算 OR 值吗?为什么?

转载自:胡志德 http://kysj.amegroups.com/articles/3923

时间: 2024-10-14 10:42:25

OR、HR、RR:三个经常把人弄晕的概念的相关文章

《梦断代码》读书感悟三及对《人月神话》的读书计划

原计划中,<梦断代码>这本书是要在三月月内读完的,前期到时兴致勃勃,但后期却有些懈怠,导致拖延到了今天. 这本书给了我不少的启发,是它简述了程序员的形象,让我明白今后自己的工作环境和位置,让我真正正视计算机行业. 同时,他让我明白了团队的重要性,让我对接受失败做好了准备. 下一本书,我准备阅读<人月神话>,这一次我要加快进度,争取在五一之前读完它,发三篇读书报告.并且,这一次发感悟 一定要随看随发,不能像这一次,等书基本看完才发.

第三次读书笔记-人月神话

<人月神话>读书笔记 <人月神话>这本书几年前就听别人说是本很经典的软件开发方面的书,被赞为"神品".这本书的成功之处在于他思想的前卫性,以至于不只是软件行业的人在读,在印度甚至人手一本. 这本书主要是针对软件开发管理方面的内容,这主要原因可能是因为作者以前就是项目的管理者,他是站在管理者的角度写的.即便这样,对于一个从来没有参与过真实项目开发,更没有领导过团队的我还是有一定的吸引力,这本书中我最喜欢的就是焦油坑.人月神话和没有银弹这三章.这本书里面为了论证某一

三句话影响人的一生

分享一下我老师大神的人工智能教程吧.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!http://www.captainbed.net 一个男人在外工作20年,终于要回家了,老板问他:你是要20年的工资还是要3句忠告?男人说我明天上路,明早给您答案好吗?老板说可以.当晚男人未眠…早晨,他对老板说:我要3个忠告.于是老板给他3句话.一.不要试图寻找不可能的捷径,世上没有便宜的事,只有脚踏实地才是最好的方法…无论做何事.二.不要对明知不是好事的事过分好奇,有可能你会因此

【第三周】四人小组项目

小组名称:中文名称:新蜂 英文名称:newbee 组长:武志远 组成员:宫成荣 李峤 杜月 选题:Java俄罗斯方块 项目期限:十周内,2016.9.10-2016.11.19 用户需求:构建一个功能强大,界面美观的经典俄罗斯方块,用来实现用户的娱乐需求. 功能列表:1.有数据库窗口,用来显示数据库中得分最高的前五位玩家的分数和名字. 2.本地记录,显示本地磁盘中得分最高的五位玩家的名字和分数.    3.按钮窗口,可以选择暂停和开始游戏.    4.等级窗口,可以显示现在的游戏等级. 5.分数

Gazebo機器人仿真學習探索筆記(三)機器人模型

gazebo_models:https://bitbucket.org/osrf/gazebo_models 模型庫下載,可以參考如下命令: ~/Rob_Soft/Gazebo7$ hg clone https://bitbucket.org/osrf/gazebo_models 下載更改目錄下載到指定文件夾中. 模型庫的結構 目錄 配置等可以參考官方文檔,注意model.sdf. 當然也可以將自己制作的模型上傳到庫中,文檔中也有具體說明. code$ hg clone https://[ema

大 发 快 三 带 人 回 血 真 实 案 例97475229

宋烨曌导师+97475229)█[/网/纸 3hx.app ].(要请马69627999█如果你是刚刚玩 我来教教你,如果你已经玩很久了,却不稳,我来拉拉你, 如果你已经遍体鳞伤,我来帮帮你.我不能保证你一夜致富但希望能细水长流, 汇聚江海,先要平稳的心态,不要一盘的失误影响你心情. 自己有规划性和目标性.做到这两点,过来找我我来帮你. 世界没有不努力就能盈利的.如果这些你觉得没时间精力去观察. 那我只能劝你去跟计划了.最重要的还是你要学会耐心观察走势. 每种方法.只要你耐心观察.那种方法都可以

快 三 专 业 带 人 的 计 划 老 师

导师[扣587~18~601]邀请码[1122 3306]指定官网hct97.com我也是从一败涂地到目前的稳稳盈利,目前我有一套比较稳定的打法,如果目前还在亏损,可以找我,我愿意帮助这个圈子的朋友,毕竟当初我受过其他人的帮助,我乐意结交更多的朋友.人生总是充满诸多的机遇和选择,你选择我我必不让你失望,你选择不信我,我也祝愿你能赢得更多,事实莫过于雄辩,实力才是硬道理,每个人都在努力的通过各种渠道让自己的生活变得更加美好,无论是玩什么都一样,也许有时候我们会感觉到很累,也许我们有时候得不到更多的

--三种方法查询人所在部门平均工资

--建表 IF OBJECT_ID(N'Emp','U') IS NOT NULL BEGIN PRINT 'This table have been existed'; END ELSE BEGIN CREATE TABLE [dbo].[Emp] ( [Name]       NVARCHAR(50) , [Slary]      INT, [DepID]      INT ) INSERT INTO [Emp] SELECT N'张三', '100', 1 UNION ALL SELECT

hash和history的区别帮助向我一样迷的人弄明白,history和hash

他们有三个区别: 1.hash 有丑陋的#符号,history没有非常漂亮,干净 2.hash 你改变路由按下enter键之后,你会发现,浏览器那个刷新的icon不变,没错,hash改变路由是不会变的, 当刚才的路由你按下第二次会变,这是因为,你在所有的浏览器按enter键他都会刷新.不过这并不代表hash改变 路由会刷新浏览器.但是history就不同了,当你按下enter键之后刷新的icon马上就会变,说明什么,说明history确 实会刷新浏览器. 3.当我们打开控制台network看他们