生物世界的数字化 正在成为新风口
每一个产业风口的开启,总有一些标志性事件。就像2016年Google DeepMind的AlphaGo与李世石下棋,2020年年底Google DeepMind的AlphaFold2参加2020年第14届国际蛋白质结构预测竞赛(CASP14)。前者昭示了AI第三次浪潮的来临,而后者有可能开启生命科技数字化的黄金十年。
今年7月15日,谷歌DeepMind团队与华盛顿大学贝克团队(David Baker)分别开源了AlphaFold2与RoseTTAFold。当这两种创造了前所未有准确度的预测蛋白质结构算法开源后,预示着用AI破解生命密码的时代拉开大幕。而在这场用AI破解蛋白质结构的全球竞赛中,中国阵营给出了不错的成绩单。日前,来自中国的人工智能企业天壤宣布,其自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14蛋白质测试集的评估中排名全球第二,仅次于AlphaFold2。在对400个氨基酸的蛋白链预测时,TRFold仅耗时16秒。这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,标志着我国在计算生物学领域的表现已经处于世界第一梯队。
与此同时,深势科技也宣布推出蛋白质结构预测工具Uni-Fold。它能够复现AlphaFold2的全规模训练,并开源训练代码与推理代码。相应解决方案已集成至深势科技自主研发的药物设计平台Hermite,供用户测试使用。
用AI预测蛋白质结构,对于加速生命科技的数字化至关重要,在全球生物数字化的竞赛中,中国阵营正采用新思路、新路径,加速推进。
生命数字化开启新风口蛋白质结构预测是关键
拼多多创始人黄峥和字节跳动创始人张一鸣宣布卸任CEO之时,未来规划中有一个共同选项,就是希望投入更多的精力在生命科技的研究与探索上。事实上,其他如百度创始人李彦宏、阿里创始人马云等,都将个人的下一个兴趣目标定在了生命科技上。生物世界的数字化,正在成为新风口。
新晋中国工程院外籍院士张亚勤几天前表示,过去30年,信息产业推动了内容的数字化、企业的数字化,而未来的重点是物理世界的数字化和生物世界的数字化,下一个10年是AI与生物制药融合的大好时机。
“一方面我们的身体从大脑、器官到细胞、蛋白质、基因、分子都在数字化,另一方面人工智能算法、算力和系统的快速发展让大量数据有了使用的场所。”张亚勤说,以前新药研发需要十几年的周期,10亿美元的投入,AI正在改变这种状况。
每一个产业的发展都有一些关键基石,而生物数字化、生命数字化的一个关键是利用数字技术破解蛋白质结构之谜。
蛋白质为什么关键,因为它是生命构成的基本要素,用北京航空航天大学大数据精准医疗高精尖创新中心特聘研究员叶盛的话来说,人体细胞乃至地球上任何一种生命的细胞,都是由蛋白质构成的。可以说,几乎所有的生物学问题都会牵涉蛋白质,而几乎所有的蛋白质功能问题最终都要通过结构研究去回答。不同的蛋白质通过折叠构成形态各异的三维结构,执行多种多样的生理功能。
长期以来,从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。蛋白质结构研究为什么难?是因为蛋白质的尺寸为纳米级,比人类肉眼的可见光波还要小,超越了光学显微镜的观察极限,因此要想研究蛋白质的结构,必须采用某种间接的方式。
而且解蛋白质结构之题,远远难于基因。“蛋白质结构测定与基因组测序最大的区别在于,基因组序列是一维的、线性的;而蛋白质结构是三维的。因此,基因组测序无论测什么物种的基因组,本质上都是在做同一件事,可以通过机器进行自动化、规模化的操作,而蛋白质结构测定则是不同的课题,科学家始终没有找到批量处理的方法。”叶盛说。
在过去几十年中,结构生物学家为探测蛋白质结构研究出三大实验手段——X射线晶体学、核磁共振和冷冻电镜,但实验方法成本高、周期长。目前人类有数十亿个已知蛋白质序列,还原出结构的却只有十几万个。生物学发展因此颇受掣肘。
人工智能的发展为解决这一问题带来了一些新的可能。在2020年的国际蛋白质结构预测顶级竞赛CASP14上,Google DeepMind推出AlphaFold2(简称AF2)预测的大部分单体蛋白质结构准确度与实验足够接近,远超此前所有方法。这一结果也标志着蛋白质单体结构的问题在一定意义上得到了解决。中国结构生物学家施一公对此的评价为“这是AI对科学领域的最大一次贡献”。结构生物学家Petr Leiman表示:“我用价值1000万美元的电镜努力了好几年,AF2竟然一下就算出来了。”
除了AlphaFold2,另外一个被高度关注的AI算法是华盛顿大学医学院蛋白质设计研究所的贝克团队,有人说因为DeepMind的成功触动贝克团队重视AI,于是他们联合很多大学与机构研发了一款基于深度学习的蛋白质预测新工具RoseTTAFold,并在预测蛋白质结构上取得了媲美AF2的超高准确率,而且速度更快、所需要的计算机处理能力也较低。
总之,AlphaFold2与RoseTTAFold是AI预测蛋白质结构的两个“明星”,破解了出现50年之久的蛋白质分子折叠问题,打开了人类预测蛋白质结构的另一扇窗。今年7月,DeepMind团队与贝克团队分别开源了他们各自的算法,这给全球研究机构进行蛋白质结构预测带来福音,大大降低了研究蛋白质结构的门槛,将帮助科研人员弄清引发某些疾病的机制,并为研发药物、农作物增产,以及可降解塑料的“超级酶”等铺平道路。
蛋白质结构预测的中国智慧
AlphaFold2与RoseTTAFold首次展现了AI在蛋白质结构预测领域的巨大想象力,意识到它可能带来划时代的意义,中国的AI公司、研究团队同样加入了这场解码生命难题之战。
或许有人会问,AF2与RoseTTAFold都已经开源,中国有必要再自主研发蛋白质结构预测的算法吗?答案是当然必须。因为开源带来的也并不全是便利,只有占据自主研发的高地才能避免在未来科技竞争中“卡脖子”。虽然DeepMind开源了AF2模型的推理代码,但其训练代码并未公布,且模型不可商用。
无法深入过程,就无法对不同的方法优势进行量化,也不能将最有价值的创新进行更大范围的应用。天壤创始人薛贵荣认为:“AF2的成功是蛋白质结构预测方向的重大突破,但是围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验,或者没有具备能够训练出AF2结果的能力是无法把该技术推进解决更深层次问题的。”
在这一点上,中科院院士、北京大学教授、深势科技首席科学顾问鄂维南表达了与薛贵荣一致的观点:“尽管DeepMind开源了推理代码,但模型的训练技术才是核心竞争力。”
应该说,利用AI解密蛋白质结构之谜的大门才刚刚开启,在这个新赛道,中国必须参与其中。基于此,人工智能创业公司天壤在两年前组建了自己的X-Lab团队,经过艰苦努力和多次迭代,研发出具有自主知识产权的蛋白质折叠预测平台TRFold。在基于CASP14蛋白质测试集的评估中排名全球第二,仅次于AlphaFold2,而且在400个氨基酸的蛋白链预测中,TRFold仅耗时16秒。这意味着,中国在该领域进入了世界第一阵营。
相对于AF2,天壤的TRFold在许多维度实现了创新和优化。在内存优化方面,TRFold模型参数量接近5000万,为AF2的一半。在训练数据方面,TRFold的算法模型所用数据量比AF2更少。在模型表达方面,AF2采用的是端到端模型,而TRFold采用的是分段式结构。这些创新和优化,意味着TRFold所用的算力资源更少、产生结果的速度更快,在大规模蛋白与蛋白的相互关系分析上,更具有优势,而且能够加速应用在不同场景中。
与此同时,包括中科院、腾讯、复旦大学等AI企业、研究机构也加入了这场竞赛。其中,深势科技推出的蛋白质结构预测工具Uni-Fold,克服了AF2未开源训练代码、硬件支持单一、模型不可商用等局限性,复现AF2的全规模训练,并开源训练代码与推理代码,为更多人参与推动该领域进一步发展提供了基础。
期待更多资源、更大范围的协同
利用AI破解蛋白质结构之谜,将改变人类对生命的认知,有可能重塑生物应用的逻辑,并将开启一个广阔和巨大的市场。英国《自然》杂志有一组数据:新药的研发成本大约是26亿美元,耗时约10年,成功率不到1/10。而AI的加入,有望大幅降低成本,缩短研发周期。目前因为AI的应用,部分新药研发减少了35%的成本,研发周期从5~10年缩短为1~3年。
AI破解蛋白质结构展示了美好前景,但仍然处于发展早期,还有许多难题期待AI加速破解。此前,叶盛曾谈及了蛋白质结构的设计,这远比蛋白质结构的预测更难。
目前AF2只是解决了单个蛋白质结构的预测问题,之后两个蛋白质的相互作用以及一大堆蛋白质的相互作用,再叠加环境变量,是更大的挑战。薛贵荣表示,利用AI加速破解生命的密码,需要更多的产业资源协同。“蛋白质折叠预测是全方位的创新项目,需要行业、机构更多方参与协同,才能把这个体系做起来。”薛贵荣表示。
薛贵荣在谈及TRFold的研发与未来发展时,曾提及了算力挑战。与Google DeepMind相比,天壤没有如此巨大的算力支持,所以天壤选择了其他路径。事实上,在中国有许多云计算巨头,各地也建立了不少的超算中心、智算中心。在抗击疫情时,许多计算资源机构都拿出了大量的计算资源支持抗疫,笔者认为这些算力资源也应该向AI破解生物难题做更多的倾斜。另外薛贵荣还谈到了数据资源的共享与制药机构的协作问题。
数据资源也是巨大的挑战之一。国际金融论坛(IFF)副理事长、香港特别行政区财政司原司长梁锦松在国际金融论坛第18届全球年会上表示,近年来,包括在新药研究、医疗服务等领域,生命科技产业在全球发展加速。香港有很多世界级的优秀学者和研究员,而且大部分与生物科技有关,但是缺乏患者资源,要做临床试验比较困难;而广州和深圳有很多大学,特别是在AI和机器人方面处于领先地位,加之拥有庞大的患者资源和医疗市场,这些对于发展生命科技能产生聚合效应。
鄂维南认为,生命科学是AI的下一个主战场,算力、算法、数据的协同发展正在缩短理论研究与解决实际问题之间的距离。AI在科研领域与应用场景深入的过程中,需要各领域、多学科的交叉与合作。而开源是一个很重要的协作模式,能够更大范围地协同各个维度的行业资源。
张亚勤表示,AI和生命科学有很多可合作的地方,比如新冠疫苗去年年底进入临床试验,今年大规模使用,这可能是人类历史上最快的一次计算机科学包括人工智能加速疫苗开发的例子。另外迁移学习用少量原始数据加上动物模型快速发现了对罕见病的药物,几何深度学习找出了广谱、稳定的新冠抗体,对变种株也有效。
李彦宏今年投资了一家生物计算公司——百图生科。他认为,当前生物计算的发展十分迅速,与20年前的互联网有诸多相似之处。基因组学研究带来的人体数据、新药研发过程当中所积累的知识和新生的各类机器学习算法三大关键指标在快速增长,会带来巨大的突破和进步。他认为:“生物计算产业的发展,需要生态和产业链的协同,一家乃至100家的企业可能都远远不够,我们希望和科学家、企业家一起构建开放的生物计算创新生态,去探索广袤浩瀚的生命科学无人区。”
计算与生命科学的融合,是没有尽头的星辰大海,希望中国企业、研究机构能够在其中贡献更多的中国智慧。