EN
0571-87061501-1801

科学研究

发表论文

陆燕、刘鹏渊课题组在《Nucleic Acids Research》上发表利用机器学习算法开发的肿瘤驱动基因鉴定新方法

发布时间:2019-05-17 浏览量:8957 次

近日,陆燕、刘鹏渊课题组在《Nucleic Acids Research》(IF=11.561)在线发表了题为“DriverML: a machine learningalgorithm for identifying driver genes in cancer sequencing studies”的研究论文(https://doi.org/10.1093/nar/gkz096)。该论文发展了一种基于机器学习的算法(DriverML),通过分析癌症样本中各基因上的体细胞突变来鉴定与癌症发生、发展有直接关系的驱动基因,为癌症精准治疗和药物开发提供潜在靶点。

体细胞突变可以根据其对癌症的影响分为驱动突变和乘客突变两类。驱动突变是能够直接导致肿瘤发生发展的体细胞突变,使癌症细胞具备优势生长的能力;而乘客突变则是伴随着驱动突变而产生的副产品,对癌症发展没有直接作用。含有驱动突变的基因被称为驱动基因,此类基因数目很少,却是癌症研究中的重点,例如TP53和KRAS等。目前已有基于基因突变频率、基于基因蛋白和通路间相互作用网络和基于热点突变的多种鉴定癌症驱动基因的方法(图1A),但是这些方法的结果互相矛盾,差异很大,也无法适用于各种不同类型的癌症测序数据。

本研究开发的DriverML考虑了不同类型突变的功能性影响,并为不同突变类型赋予差异化的权重参数。通过最大化先验基因在包含17种癌症的训练突变数据集上的得分检验统计量,得到适合于各类型突变的权重参数,之后这些参数被用于计算测试突变数据集的统计量数值。由于基因突变率极低,实际样本中的突变数目可能无法使统计量达到理论上的正态分布,因此DriverML根据实际数据的背景突变率,利用蒙特卡洛模拟产生统计量的经验分布,随后可以计算被检验基因的统计量值对应的显著性P值(图1B) 。

201904171344514451.jpg

对包括DriverML在内的21种驱动基因鉴定方法在31个TCGA癌症测序数据集中进行全面测评,发现DriverML在Cancer Gene Census、Mut-driver和HiConf三种基因集上的查准率中位数均排在第一位(图2A-C)。另一方面,DriverML有最少比例(2.5%)的预测基因是仅被本方法鉴定的(图2D),也就是假阳性结果最少。本研究鉴定出了一些新的癌症相关基因,并在肿瘤细胞系中得到了验证(图3)。

该研究开发的基于机器学习和得分检验的鉴定癌症驱动基因的新方法,能够适用于多种癌症类型,并且在查准率和查全率之间达到了相对的平衡。该方法对更深入地了解癌症发生机制和预测潜在治疗靶点提供了重要参考。

该研究由浙大妇院和转化医学研究院双聘教授陆燕、邵逸夫医院和转化医学研究院双聘教授刘鹏渊团队完成,浙江大学医学院附属妇产科医院为第一完成单位。陆燕教授和刘鹏渊教授为本文的共同通讯作者,转化医学研究院2016级直博生韩毅及2017级博士生杨举泽是本文的共同第一作者。台湾中国医药大学的郑维中助理教授和博士生刘淑萱对本课题的完成提供了大力支持。

201904171345194519.jpg

201904171345474547.jpg

201904171346234623.png