关注公众号的朋友都知道郑老师我之前连续4年开设了“30天学会医学统计学”从理论到实操一步一步教会大家统计学、SPSS课程。2026年我们对这门课程进行全新升级课程时间大幅度缩短内容大幅度提升我称为9天实用医学统计学公益训练营。课程介绍“9天实用医学统计学”公益训练营即将启动更高效、更高级的统计课本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课不是骗人入坑收费的广告。本课程公益视频课定期开课欢迎您参与学习。欢迎报名本公众号“医学论文与统计分析”后台回复“报名”加入微信学习群吧。Day 4-1 倾向性得分概念与计算今天带大家学习我们课程的第四章倾向性得分方法。在之前的课程里我们提到过倾向性得分方法该方法是医学统计学中控制混杂偏倚的重要举措。现在这种方法越来越流行因此我希望大家一定要把倾向性得分方法的基本原理、方法类型以及软件操作过程多学一下。本节课程安排如下第一节介绍倾向性得分的概念讨论如何计算第二节介绍倾向性得分方法如何控制混杂偏倚第三节讲解重要的倾向性得分方法——倾向性得分加权第四节演示孵化统计平台如何进行倾向性得分操作。首先我们讲一讲倾向性得分的概念与计算方法。√什么是倾向性得分之前我们说过回归方法是可以控制混杂偏倚的。但如果自变量过多比如远远大于10个变量之间的关系会变得复杂这时就会存在建模失败的风险导致我们无法通过回归方程去探讨暴露与结局的真实关系。模型都失败了我们还怎么建模这个时候就可以用我们的倾向性得分方法它可以处理多个混杂因素尤其是在自变量过多、混杂因素过多或者样本量过低的情况下倾向性得分方法都能起到很好的作用。它可以实现“准随机化”——随机化可以保证均衡可比而准随机化就是在数据分析阶段做到类似于随机化的作用保证均衡可比控制混杂偏倚。为了带大家更好理解我们来举个例子。案例非小细胞肺癌药物研究以一项关于非小细胞肺癌药物的前瞻性队列研究。治疗措施暴露因素分为两组暴露组治疗措施是常规放疗纳武利尤单抗治疗非暴露组治疗措施是常规放疗。结局为客观缓解率ORR也就是有效率。由于是非随机化研究根据患者选择分为暴露组和对照组。最终其中600人选择暴露组400人选择对照组则整体人群倾向选择暴露组的比例为0.6。通俗地说这1000名患者选择成为暴露组的倾向性是0.6即60%选择了暴露组。这个0.6就是这组患者倾向性得分的平均值。平均而言每个人都有一个倾向性得分。而这1000名患者平均每个人成为暴露组的期望概率值就是0.6。这个人群分为暴露组和对照组两组是不平衡、不可比的直接比较有效率肯定存在混杂偏倚。上面讲的是平均值具体到每个个体倾向性是不一样的。这种不一样可能是由混杂因素带来的比如年龄、性别--男性倾向性得分高于女性年轻患者成为暴露组的比例高于年长患者。所以每个人的倾向性得分是不同的。我们可以进一步整合把性别和年龄组合起来形成一个复合变量。根据性别和年龄将人群分为四组男性大于60岁、女性大于60岁、男性小于等于60岁、女性小于等于60岁。这两个变量就变成了一个新的四分类复合变量。例如男性大于60岁的倾向性得分为60.6%女性大于60岁的50%男性小于60岁的倾向性得分最高为75%女性小于60岁的50%。这样我们在数据分析之前就可以把多个变量整合成一个变量用这个变量来区分不同人群入组成为暴露组的比例。这个入组成为暴露组的比例就是倾向性得分。可以看到倾向性得分把原来很多的混杂变量年龄、性别以及更多变量通过一定的方式合并到一起把多个自变量变成一个自变量把多个混杂因素变成一个复合的混杂因素。在这个复合变量里不同群体都有各自的得分这个得分代表该群体的倾向性。如果倾向性得分不一样群体之间就有差异如果倾向性得分相似群体之间就相似。如果我们把两个倾向性得分相似的个体拿出来做比较就会发现这两组个体的特征相似做比较时就没有混杂偏倚了。所以倾向性得分就是把多个混杂因素用一个综合的倾向性得分来表示降低了协变量的维度。你用一个倾向性得分就能反映人群特征的差异性有效克服了分层分析或多因素回归中自变量个数不能太多的短板。我们用一个变量来反映个体特征的差异性倾向性得分相似个体特征就相似倾向性得分不同个体特征就不同。我们用倾向性得分来反映组间均衡性组间均衡就没有混杂。如果不均衡怎么办此时倾向性得分就是我们的混杂因素是一个新的复合型混杂因素。把这个混杂因素控制了它带来的偏倚就控制了再去评估两组间的差异就没有混杂偏倚了。这就是倾向性得分的作用——降维处理容易操作。√怎么计算倾向性得分倾向性得分是在一定协变量往往是混杂或潜在混杂因素的条件下一个观察对象接受某种暴露或处理的概率即成为暴露组的比例。这个概率是0-1之间的连续值。那么我们要如何计算这个概率之前学过对于二分类结局要计算概率发生率最常用的方法是Logistic回归。计算倾向性得分时以暴露因素作为因变量注意不再是结局作为因变量以其他协变量作为自变量构建Logistic回归计算出概率值这个概率就是倾向性得分。Logistic回归有一个P值概率值这个P就是入组暴露组的概率也就是倾向性得分。不同协变量会算出不同的P值。在构建Logistic回归时无论用什么统计软件都会自动算出这个概率。√Logistic回归如何筛选自变量我们在之前的两讲中已经讲过三个原则第一大道至简。自变量个数要少一些才能构建合适的模型。第二严进严纳。但在控制混杂方面我们不会太讲究淘汰也不太会用逐步回归法重点是“严进”。第三DAG数据驱动。上一节我们提到过的DAG有向无环图加先验知识法就是用来挑选协变量的。· 为什么要这么挑选因为DAG最核心的任务就是排除中介变量碰撞变量也得考虑否则会引入新的偏倚。排除中介变量之后再加上数据驱动方法筛选纳入模型。具体纳入多少自变量取决于自变量的个数如果自变量本来就不多可以把所有自变量都纳入。如果自变量较多可以纳入与分组不均衡的变量P值小于0.05或者现在更流行的SMD小于0.1。或者同时纳入与暴露有关的变量以及与结局有关的变量。具体策略有三种只纳入与暴露有关的变量只纳入与结局有关的变量同时纳入与暴露有关或与结局有关的变量两者都纳入。如果有无序分类变量需要设置哑变量这个之前已经讲过多次。而逐步回归方法一般不太使用。√关于P值与SMD为什么建议用SMD而不是P值因为在大样本情况下P值会变得不可靠。特别是真实世界研究当样本量很大时P值几乎必然小于0.05但P值小于0.05并不代表真的不均衡只是因为样本量大。因此在大样本情况下比如样本量超过500或者几千上万建议使用SMD标准化均差而不是P值。SMD表示两组数据差值的标准化即均值差除以标准差或者率差除以两率的标准差。它相当于一个Z值没有单位可以相互比较。它的均数为0标准差为1。我们衡量两组是否平衡时设定一个统一的界值即可。现在习惯上认为SMD小于0.1时组间均差或率差比较小即两组均衡。为什么设定0.1没有严格标准就像P值小于0.05也只是习惯用法。SMD不受样本量和度量衡单位的影响是更加通用的方法无论大小样本都可以使用。案例中国中老年人抑郁症状与心血管病的关联研究还是上一讲的哪个案例基于中国健康与养老追踪调查CHARLS的数据。选取2011年的抑郁症状数据作为暴露2013年、22015、2018、2020年发生的心血管病事件作为结局。抑郁症状相关数据采用中文版流行病学研究中心抑郁量表CES-D进行评估。结局是生存时间资料暴露是二分类后续会用到生存分析方法如Cox模型开展数据分析。1差异性分析在使用倾向性得分之前我们可以先计算两组间的差异性。一般情况下P值越小SMD越大。但有时会出现不一致的情况比如高血压这个变量P值为0.003小于0.05但SMD为0.056小于0.1。这是因为样本量很大总共1万多例P值显著但实际差异很小有抑郁症状组高血压患病率为20.5%无抑郁症状组为22.85%差别很小所以SMD仍然小于0.1。2倾向性得分接着计算出所有研究对象的倾向性得分按照暴露组和对照组绘制倾向性得分的分布图。概率密度图的X轴是倾向性得分Y轴是密度。从图中可以看出暴露组蓝色和对照组红色的倾向性得分分布不同说明两组不可比。不可比就意味着存在混杂偏倚的可能性。本章总结倾向性得分的实质是将多个混杂因素压缩成一个综合评分通过评分相似实现组间均衡从而有效控制混杂偏倚。最后提醒要学习本推文的完全对应的课程视频请发送关键词“报名”至公众号加入高校公益免费课程群来学习吧。关于郑老师团队及公众号全国较大的医学统计服务平台专注于医学生、医护工作者学术研究统计支持郑老师团队可以提供诸多统计支持各式统计课程、临床试验设计构建预测模型与真实世界研究“双库”保发表训练营、医学数据库挖掘详情联系助教小董咨询微信号aq566665