第一篇:tcga肿瘤数据做生存分析竟然发了cell主刊
TCGA肿瘤数据做生存分析,竟然发了cell主刊
癌症基因组图谱(TCGA)计划收集了临床病理学注释数据以及跨越33种不同癌症类型的11,000多种人类肿瘤的多平台分子谱。TCGA临床数据包含代表数据收集过程民主化特征的关键特征。为确保正确使用与基因组特征相关的大型临床数据集,我们开发了一个名为TCGA Pan-Cancer临床数据资源(TCGA-CDR)的标准化数据集,其中包括四个主要的临床结果终点。据我们所知,目前还没有系统地尝试分析TCGA临床数据,并在涉及11,160名患者的所有33种TCGA癌症类型中推导出可接受的结果终点,或者评估每个生存终点测试的临床随访间隔的充分性。在这里,我们提出策划和过滤的临床和生存结果数据作为整个科学界的新集成资源,描述分析这些数据时遇到的问题是如何解决的,以及研究人员在将这些数据用于未来相关性和存活研究时应该注意哪些缺陷。基于我们全面的临床评估,我们还提供评分建议,以便将来适当使用和肿瘤特异性终点选择。由此产生的精选数据汇编现在作为TCGA泛癌症临床数据资源(TCGA-CDR)提供,供公众查阅和未来的转化癌症研究。图1。临床数据分析(B),PFI(C),DFI(D)和DSS(E)的癌症类型(A-E)流程图(A)和KM图。当少于10名患者处于危险中时,每条KM曲线的尾部被截断。有关端点推导的更多详细信息,请参见图S1OS,PFI,DFI和DSS的临床结局终点肿瘤研究中使用的临床结果有许多定义。在分析了用于本研究的所有TCGA临床数据之后,我们得出结论,使用可用数据可以相对准确地推导OS和PFI。我们也合理准确地推导了DFI,但是在大多数情况下,DSS只能被估算。图1B显示33种不同癌症类型的所有病例的OS Kaplan-Meier(KM)图。尽管TCGA并未将生存分析作为主要计划目标,但大多数癌症类型的结果生存图与前瞻性设计的前瞻性独立研究类似,以评估这些相同的生存终点。这可能是GBM,OV(Cancer Genome Atlas Research Network,2008,2011)的TCGA结果最好的例证)和低级别胶质瘤(LGG)(Cancer Genome Atlas Research Network等,2015)。KM地块为PFI,DFI和DSS示于图1的C-1E(也参见图S1)。
我们根据每种癌症类型的这四个终点的观察时间(表2;表S1,标签TCGA-CDR)计算了中位随访时间以及事件或审查的中位时间。所有肿瘤的总体中位随访时间为22.1个月,但这些时间在不同癌症类型中差异很大;GBM和急性髓细胞性白血病(LAML)最短(约12个月),而肾嫌色细胞(KICH)最长(约48个月)。推荐使用临床结局终点为特定研究选择临床结果终点取决于研究目标,事件数量,队列大小和结果数据质量。方法可用于评估生存结果数据的质量我们将这些方法和我们开发的其他方法作为测试1-3和补充检查应用于这些单个疾病的数据集。我们提供了有关如何在每种疾病类型中使用每种结果的终点的建议,并在意见中提出了合理的担忧(表3))。通过至少一项主要测试以及补充检查的每种癌症类型的生存终点被认为可以接受使用。总体而言,我们建议在33种癌症类型中的13种不加保留地使用全部四种端点:膀胱尿路上皮癌(BLCA),宫颈鳞状细胞癌(CESC),结肠腺癌(COAD),食管癌(ESCA),头颈部鳞状细胞癌细胞癌(HNSC),肾肾乳头状细胞癌(KIRP),肺腺癌(LUAD),LUSC,OV,胰腺癌(PAAD),肉瘤(SARC),胃腺癌(STAD)和子宫体子宫内膜癌(UCEC)。相反,在TCGA嗜铬细胞瘤和副神经节瘤(PCPG)病例中,4个结局终点均未推荐使用。对于淋巴肿瘤弥漫性大 B细胞淋巴瘤(DLBC),LAML和胸腺瘤(THYM),建议仅使用一个终点;对于所有其他癌症类型,可以推荐两个或三个端点,其中一些特别有所保留。一般而言,在所有四种终点(PFI)中最可靠的可以推荐在33种癌症类型中的所有4种中毫无保留地使用,4种例外是LAML(无数据),DLBC和KICH(谨慎使用)以及PCPG(不建议)。因此,尽管许多人认为TCGA随访时间对于有意义的终点分析来说太短,事实上,它们对于更多侵入性肿瘤类型中的许多终点确定以及用于确定大多数肿瘤类型的PFI而言足够长,其中疾病进展事件发生在死亡事件之前。OS,DSS,DFI的累积事件图
验证和应用示例在乳腺癌研究中,雌激素受体阴性
(ER-)肿瘤患者与ER阳性(ER +)肿瘤患者相比,临床生存率更差。为了评估衍生的临床终点,我们分别使用OS,PFI,DFI和DSS比较了这两种肿瘤患者的存活率(图2A-2D;在10年随访时间截断的图,但分析使用Huo等2017年后的整个数据集进行)。单因素分析显示,当使用PFI(p = 0.005)和DFI(p = 0.001)作为临床终点时,具有ER +肿瘤的TCGA乳腺癌患者比具有ER-肿瘤的患者具有更好的存活,但是没有充分证据表明使用OS作为终点(p = 0.097)。我们也注意到(近似)DSS有显着差异(p = 0.009),证明了这个估计终点的潜在价值。如表3所示,尽管我们警告不要使用乳腺浸润癌(BRCA)数据来确定OS和DSS,但上述发现验证了我们推荐的PFI和DFI作为特定类型乳腺癌分子研究的合适终点。我们还检查了更具侵袭性的癌症类型GBM的生存结果终点。TCGA GBM的中位OS为12.6个月,这在先前报道的标准治疗12.1个月和标准治疗加替莫唑胺治疗14.6个月之间(Stupp等,2005)。PFI的中位数为6.1个月,这与标准治疗的5.0个月和标准治疗加替莫唑胺的6.9个月之间有关(Stupp et al。,2005)。因此,从TCGA数据集得到的OS和PFI的事件时间与文献一致,这是以前在最初GBM标记论文中记录的OS观察结果,当时只分析了185例病例(Cancer Genome Atlas Research Network,2008)。这个例子再次证实OS和PFI作为与GBM分子研究相关的推荐临床终点的有效性。我们通过使用Cox比例风险回归模型验证策划的TCGA-CDR数据,以确定高危(III,IV)疾病相对于低危(I,II)疾病患者的危险比(HR)的四个端点。肿瘤特异性美国癌症联合委员会(AJCC)病理分期(Amin等,2017)按照每个组织来源部位(TSS)使用的当时版本使用。由于DFI的定义与其他结果的定义不一致(即,随访时间少于90天的病例被排除,de novoIV期病例),我们使用其他三个终点(OS,PFI和DSS)对这些结局终点推荐使用的14种癌症类型(表3)比较了基于阶段的测量的logHR。进行仅使用满足Cox比例风险假设的疾病(Grambsch和Therneau,1994)的后续统计分析(图 2E-2G;表S1,选项卡图2EFG_AdditionalInfo)。我们的研究结果显示,除了间皮瘤(MESO),PAAD和葡萄膜黑色素瘤(UVM)外,对于14种癌症类型中的大多数以及三个推荐的终点,高度HR显着大于1,对于OS,PFI或DSS的高级与低级疾病不同。图S3提供了这些分析的KM图。使用配对的Wilcoxon符号秩检验,当通过PFI与DSS(p = 0.0008)或PFI与OS(p = 0.039)测量时,logHR显着不同,表明进展与存活终点之间HR的系统性差异的证据。OS和DSS之间没有显着的系统性差异的显着证据(p = 0.106)。使用由logHR值的两个标准差的逆平均值加权的Pearson相关系数,我们观察到所有三个结果的logHR估计之间存在非常强的正相关性:相关系数为0.96(95%置信区间[CI]:0.77-0.99)PFI和OS间0.95(95%CI:0.76-0.99),OS和DSS 0.90(95%CI:0.61-0.98)
除了与分子数据整合之外,在TCGA-CDR中使用泛癌数据的方法有很多。作为TCGA-CDR的一个应用,我们研究了发生新肿瘤事件(NTE)的可能性与初始治疗后没有疾病的患者之间是否存在差异。我们TCGA-CDR中的29种癌症类型具有解决这个问题的信息。对于这项分析,我们包括了从诊断后至少存活3个月的患者,以接近完成初级治疗并达到无病状态所需的时间(即,防止无疾病组中的不朽时间偏差;Anderson et al。,1983;Giobbie-Hurder等,2013)。以LUSC为例,有289例无病例和41例无病例,NTE率分别为21.8%和68.2%。使用Cox比例风险回归模型,从未无病的LUSC患者发生NTE的风险显着高于无疾病患者(HR = 6.68,95%CI = 4.25-10.51,虚假发现率 [FDR]调整的q值<>在另外21种癌症类型中观察到类似的结果(表4)。在剩余的7个中,我们没有看到这些差异,但要警惕大多数患者处于危险中的人数很少。我们还评估了每个模型是否满足比例风险假设(表S1,选项卡Table4_PHAssumptionTests)。其中两个未满足假设,因为仍有待研究的原因还有时间依赖或多变量模型。图S4提供了这些分析的KM图。我们观察到,对于像GBM这样的高度侵袭性肿瘤,与其他TSSs的疾病人群相比,这两种TSS(#1和#2)具有相似的OS,PFI和DSS结局,而通过未推荐的终点DFI太少而无法分析。对于BRCA等侵袭性较低的肿瘤,我们推荐使用PFI和DFI而无保留,但建议在评估OS或DSS时慎重。对于TSS#1,他们的临床数据产生更差的OS和DSS结果,并且显示其PFI相对于其他位点没有观察到差异。然而,同样的TSS产生了名义上更好的DFI结果,仅产生了3次DFI事件。这种名义上不一致的结果表明来自该网站的结果数据需要进一步评估。另一方面,TSS#2,这个简单的结果比较测试表明,在分析整个TCGA临床数据以获得特定结果时,可能需要考虑TSS特定信息。由于来自不同TSS人群的终点混杂因素可能包括患者年龄,肿瘤阶段/等级和治疗,因此TSS可以作为这些因素以及其他未测量差异的代理,包括不完整的临床注释。为此,我们在表S1标签TSS_Info中包含了翻译患者条形码的TSS元素的键。