首页 > 教育 >

QB期刊|基于深度学习的病毒序列识别

2020-10-17 14:32 编辑:dd   作者:未知 对此文章感兴趣的有:

全球COVID-19新型冠状病毒肺炎疫情使人们对病毒有了前所未有的关注。病毒不仅可以侵入人体等真核生物,还可以侵入细菌等原核生物。侵入细菌的病毒数量大约有1031,是地球上最丰富的生物体 [1]。病毒入侵细菌具有很强的特异性。通过与细菌的相互作用,病毒可以控制细菌的种类和数量,从而影响微生物群落的功能。例如,人类肠道微生物中的病毒的失调会导致肠炎[2];海洋和土壤中的病毒调控着全球生物化学循环 [3]。

过去由于实验技术的限制,人类对病毒的认识只有冰山一角[4]。最新的宏基因组测序技术可以对包括病毒基因组在内的微生物基因组进行大规模测序,大大加快了病毒的研究。为了快速识别宏基因组数据中的病毒序列,美国南加州大学定量计算生物学中心孙丰珠教授课题组在Quantitative Biology期刊上发表了题为“Identifying viruses from metagenomic data using deep learning”的文章(点击文末“阅读原文”下载PDF全文),文章在该课题组2017年开发并广泛应用的VirFinder [5]基础上进一步发展了一个基于深度学习识别病毒序列的方法-DeepVirFinder。 此方法利用了深度学习和大数据的优势,无需与参考序列比对,显著提高了病毒识别的速度和准确性,将有助于在宏基因组学时代下对病毒的研究。

作者开发了一个基于深度学习识别病毒序列的方法-DeepVirFinder。对基因序列搭建了基于卷积神经网络(convolutional neural networks)的模型,利用大量已知的病毒序列和细菌序列进行训练,得到了最优的二元分类器(图1)。卷积神经网络的优势在于它可以自主学习得到病毒的特征(motifs),无需事先定义,因此比传统的机器学习方法更加准确。另外,此模型利用已知序列学到了病毒的一般性特征,因此比基于序列比对的传统方法在识别未知病毒上更加灵活有效。

DeepVirFinder模型用来自2015年5月之前发现的病毒序列进行训练,并对该日期之后发现的序列进行评估。结果显示DeepVirFinder在不同序列长度上均优于VirFinder [5],对于300、500、1000和3000 bp序列AUROC达到 0.93、0.95、0.97和0.98 (图2A)。为了进一步提高对罕见病毒识别的准确性,作者从宏基因组样本中收集了数百万条病毒序列,扩大了训练数据集(图2B)。并将DeepVirFinder应用到肠癌患者的肠道宏基因组样本中,发现了属于175个组的51138条病毒序列,其中10个组与癌症相关,表明病毒可能在肠癌中起重要作用。

图2.(A)DeepVirFinder在不同序列长度上均优于VirFinder。(B)利用从宏基因组中收集到的数百万条病毒序列扩大数据集后,罕见病毒的准确性显著提高。

Quantitative Biology (QB)期刊是由高等教育出版社和清华大学共同主办的全英文学术期刊,由清华大学北京信息科学与技术国家研究中心和北京大学定量生物学中心支持。QB主要刊登生物信息学、计算生物学、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机、数学、物理等交叉研究领域打造一个学术水平高、可读性强、具有全球影响力的交叉学科期刊品牌。


 

资讯标签: g期刊