在一场被誉为蛋白质结构领域的“奥林匹克竞赛”上,谷歌旗下DeepMind公司的最新人工智能程序AlphaFold击败了所有参赛者,在其预测的43种蛋白质中有25种蛋白质结构预测结果最为准确,而排名第二的团队只有三种。
结果一出,引发了不少媒体和公众的恐慌:如果人工智能在生命科学领域都能超过人类,一旦它背离了人类的意愿,人类将遭遇怎样的结局?
目前来看,这种担忧还为时过早。不少科学家在接受记者采访时表示,AlphaFold所取得的成绩不过是计算机科学和生物科学融合发展中的一个“节点”事件。他们希望人工智能尽快发展,早日将科学家从蛋白质解结构的繁重“体力活”中解放出来。
用计算机预测蛋白质结构,谷歌并不是第一个
解析蛋白质的结构,是全球生命科学家所面对的重大科学问题之一。
蛋白质是由氨基酸构成的生命基本物质,其排列组合与空间结构共同决定了蛋白质的性质与功能。以一个简单的蛋白质来说,它往往包含了数百个氨基酸,其空间结构的可能性更是高达10的300次方个。如果空间结构发生一点错误,就会导致糖尿病、帕金森症和阿尔茨海默病等疾病。
结构生物学家、上海交通大学医学院精准医学研究院执行院长雷鸣介绍说,X-射线晶体学、核磁共振、冷冻电镜等实验手段都是科学家解决这一难题的有力武器,其中冷冻电镜技术的新进展还获得了诺贝尔奖的肯定。不过,这些实验手段却有一个致命的缺点——耗时又昂贵。“要解析一个膜蛋白的三维结构往往耗时数年,甚至必须使用国外高质量的同步辐射光源才行。”上海科技大学iHuman研究所赵素文教授说。
随着计算机技术的发展,科学家们早就在试图用计算机算法来辅助处理蛋白质三维结构海量可能性的难题。“华盛顿大学生物化学教授大卫·贝克、密西根大学计算医学与生物信息系教授张阳等人已经在用算法来预测蛋白质结构,并且取得了很好的成绩。”雷鸣说,谷歌的人工智能算法只是众多算法的一种优化和集成,在业内人士看来,这只是一个节点,并不能算颠覆。
AI想要完全解析蛋白结构,依然困难重重
这个两年一度的比赛,每次都持续几个月。 在比赛过程中,组委会每隔几天就向所有的参赛选手们提供一个蛋白质的氨基酸序列,参赛选手们可用各自的方法进行预测,并在规定时间内上交预测结果。由于这个蛋白质的结构已被科学家们解析过,只是尚未发表,组委会只需将选手们的预测结果与实际结构进行比对,就能分出胜负。
为了精准预测蛋白质结构,谷歌在数千种已知蛋白质结构上反复训练了AlphaFold算法。整个比赛过程其实只是一场算法的“演习”,并不是“实操”。
在算法优化的过程中,已知的蛋白质结构数据库起到了非常重要的作用。但在蛋白质领域,更需要科学家们探究的,却是那些结构数据库中还没有的蛋白质分子。
据悉,蛋白质可分为若干同源家族,来自同一家族的蛋白质长相十分相似。“如果一个家族内部的蛋白序列条数足够多且足够多样化,即使这个家族中没有任何的已知结构,人工智能也能根据这些序列勾勒出这个家族的整体概况,来帮助预测结构。但有些蛋白质家族中成员数少且多样化不足,以目前的人工智能也较难有所作为。”赵素文说,而这些蛋白小家族的数量其实不少。
“人工智能的发展需要算力、算法以及数据库的共同提升。人工智能要想进一步提升对于蛋白质结构预测的能力,首先需要科学家们不断探究、扩充数据库。”雷鸣说,在蛋白质结构这一领域,人工智能技术只是多提供了一种参考,并不能替代科学家。
期待更强AI助手,把科学家从“体力活”中解放出来
科学家们正翘首期盼着这一技术的升级和迭代。
“解析蛋白质结构是蛋白质科学研究的基础性工作,科学家们在此耗费了大量时间和精力。”赵素文说,解析蛋白既需要科学家了解研究对象的方方面面来让蛋白“稳定”下来,又有相当一部分精力是在优化蛋白构造和对蛋白表达、纯化、结晶的条件进行筛选,这其实是反复试错的过程,更像是科研中的“体力活”。如果未来人工智能技术能够将科学家从这种“体力活”中解放出来,科学家们就有更多的时间去探究更有意思的科学问题,“比如说,我们可以进一步去探究蛋白之间相互作用的机理,设计新的蛋白应用于医药、材料等不同领域。永远有更复杂的科学问题在等着我们。” 赵素文说。
虽然这次,人工智能技术在蛋白质结构领域秀了一把“肌肉”,但技术只是工具,归根结底,这只是帮助科学家解决问题的一种手段而已。正如 DeepMind 联合创始人兼首席执行官戴密斯·哈萨比斯所说的那样:“我们还没有解决蛋白质折叠问题,预测只是第一步。”
作者:金婉霞 许琦敏
编辑:顾军
责任编辑:樊丽萍
*文汇独家稿件,转载请注明出处。