上海交大团队研发通用人工智能,解决传统蛋白质工程难题
2024-05-07
更新时间:2024-05-07 03:57:26作者:橙橘网
“作为一名基础科研人员,当我第一次看到我们研发的蛋白质工程通用人工智能技术,实现面向功能的蛋白序列设计,并被湿实验验证成功之时,心中涌起的激动是无与伦比的。”上海交通大学自然科学研究院&物理与天文学院&药学院特聘教授洪亮表示。
图 | 洪亮(来源:洪亮)
他进一步解释道,这意味着以前需要靠专家经验和大量实验试错的蛋白质工程,现在可以通过通用人工智能进行定向设计,从而数倍乃至数十倍地减少时间和经济成本。
此外,由于该模型具有通用性,对各领域都适用,决定了它将大大加速我国生物制造业、合成生物学、生物医药等领域的发展,帮助我国企业与国际头部公司进行良性互动与竞争。
相关论文以《蛋白质工程与轻量级图去噪神经网络》(Protein Engineering with Lightweight Graph Denoising Neural Networks)为题发表在 Journal of Chemical Information and Modeling 上[1]。
上海交通大学自然科学研究院助理研究员周冰心博士为第一作者,洪亮教授担任通讯作者。
图 | 相关论文(来源:Journal of Chemical Information and Modeling)
现如今,洪亮和团队开发的蛋白质设计通用人工智能 AccelProtein™,通过 AI+ 计算的“干实验”与高效的“湿实验”协同闭环迭代,解决了传统蛋白质工程中研发时间长、成本高、上位组合差等核心问题,为体外检测、合成生物学等领域提供了数十款性能优异的蛋白质产品。
利用通用人工智能设计蛋白质,已成为蛋白质工程领域的大势所趋
众所周知,蛋白质是生命系统的基础,在细胞、组织和器官中扮演着重要角色。除了它所拥有的生物学意义,蛋白质对于众多行业应用来说也至关重要,具有广泛的市场价值。
例如,在生物医学领域,可以作为药物靶点和治疗剂;在化学工程领域,能充当各种反应的关键催化剂。
不过,自然界的蛋白质,通常需要经过工程改造,提高它的活性、热稳定性、对极端 PH 环境和恶劣溶剂的耐受性等多种指标之后,才能在各类工业应用中获得应用。
而利用传统蛋白质设计需要经历长达数年的实验研究,不仅耗时耗力、成本较大,也愈发不能满足许多工业应用中重要蛋白质的改造要求。
近年来,深度学习技术的发展,在一定程度上打破了传统方法面临的瓶颈,利用 AI 来设计和改造蛋白质,逐渐成为该领域的大势所趋。
自主研发蛋白质设计通用人工智能,实现从序列到功能的精准蛋白预测
据介绍,在 AI 蛋白质设计领域,洪亮已有多年研究经验。他本科和硕士分别毕业于中国科学技术大学和香港中文大学的物理系,博士时期在美国阿克伦大学高分子科学系从事蛋白质生物物理方面的机制研究。
在美国橡树岭国家实验室完成博士后研究后,他来到上海交通大学,通过将实验和计算生物学方法进行结合的方式,继续对蛋白质的性能进行研究。
“其实这些研究都属于‘后解释’的范畴。换言之就是,对蛋白质的一些物理机制进行解释,比如它的运动形态和各种热力学参数如何影响其功能的发挥。”洪亮解释说。
2020 年,AlphaFold 的问世为洪亮开启 AI 蛋白质设计研究打造了一个契机。
“用户只需向 AlphaFold 输入蛋白质序列,就能得到准确的结构预测,这对于整个分子生物学领域来说非常震撼。
但 AlphaFold 只解决了从序列到结构的问题,没有解决结构到功能的问题,我们想做一套打通结构到功能的通用人工智能,彻底打破传统蛋白质工程方法的禁锢。”他说。
因此,他开始带领团队做 AI 蛋白质设计方面的研究,并在 2021 年开发了一套基于预训练的蛋白质设计的通用人工智能 AccelProtein™ ——与 AlphaFold 预测结构不同,AccelProtein™ 开创性地实现了从序列直达功能的精准蛋白质设计。
具体来说,该课题组通过预训练方法,让 AccelProtein™ 学习自然界已知的所有蛋白质序列和结构特征,并探索与理解自然界中蛋白质序列与功能的映射规律,从而开发出一套能够高效地设计出稳定性好、活性高、功能性强的 AI 蛋白质设计通用大模型。
那么,该模型如何实现精准的蛋白质设计?
据洪亮介绍,自然界已知的具有完整氨基酸序列的蛋白质有几亿条,这些蛋白质的氨基酸序列以存在即合理的方式排列着。
在掌握这些序列以后,该团队采用双重任务学习方法:一方面,帮助大模型在经过预训练学习以后,掌握满足蛋白质序列排布的语言规则,另一方面,通过所构建的亿量级蛋白质标签数据库,为蛋白质打上标签,进一步提升模型精度,从而提供精准、高效地蛋白质设计,大大降低试错成本。
和同类通用人工智能模型相比,AccelProtein™ 主要具备如下优势。
其一,架构优势。采用几何深度学习方法对模型架构进行简化,能在保证模型精度的同时降低模型参数,便于进行大规模预训练和推理。
其二,策略优势。利用小样本乃至零样本学习方法,提高大模型的工程泛化能力,帮助它在仅有少数湿实验数据的情况下实现蛋白质性能优化,极大地提高了蛋白质设计的效率——以往需要 2~5 年才能完成的项目,在 AccelProtein™ 的支持下只需要 2~6 个月即可完成。
其三,数据优势。通过与国内多家科研院所和企业的合作,获得了丰富全面的高精度蛋白质序列数据,尤其是一些高热、低温或强酸强碱环境下的数据。
此外,该课题组还开发了其他几种 AI 蛋白质通用大模型,并取得了可与 Google、Meta 等国际团队推出的同类成果相媲美的成绩。
根据美国哈佛大学医学院创立的蛋白质突变性质预测榜单 ProteinGym,洪亮团队提出的大模型夺得非检索方法排名第一的桂冠,并在总榜前十名的排名中占据一半席位。
其中,预测真核蛋白的大模型排名第一,预测原核蛋白的大模型排名第二,预测人类蛋白的大模型排名第三[2]。
(来源:ProteinGym 榜单)
如上所说,在整个蛋白质设计过程中,通用人工智能可在不需要或仅有少数湿实验数据的条件下,完成对蛋白质改造的赋能。这是否意味着,生物实验在其中已经没有发挥作用的空间?
对此,洪亮持否定看法。
他认为,首先,AI 在优化特定蛋白时,还需要湿实验来指导和调整方向。
其次,生物学家也能够通过湿实验提出更多典型的科学问题,便于大模型团队基于这些问题开发定制化的大模型,从而实现批量的蛋白质设计。
创办 AI 蛋白质设计公司,已完成十余项蛋白质产品交付
正是基于在 AI 蛋白质设计领域取得的成果,洪亮于 2021 年创办了上海天鹜科技有限公司。
后者已经在不到三年时间里,完成了十余款蛋白质设计项目的成果交付,并已获得数千万元 Pre-A 轮融资,投资机构包括耀途资本、金沙江资本等。
据了解,目前该公司的服务范围已拓展至创新药、体外诊断、合成生物学等多个行业领域。
当下及未来,该课题组也在尝试拓展与更多科研院所和企业之间的合作,希望能在蛋白质工程这一赛道,打出全国最好、世界最优的标志。
在洪亮看来,虽然中国的生物制药行业目前已然具备强大的实力,但在全球整个产品链条中的利润比仍然较低。
原因在于,缺乏良好的设计上游产品的能力,以至于在短时间内无法实现“破局”。
“毕竟国际企业所拥有的设计能力,是在过去一百年来经过大量的科研探索和实验数据积累,以及数不清的人才积淀的基础上才产生的。
但如今有了蛋白质通用人工智能,我们就可以不走国际企业的这条发展道路,直接利用 AI 来实现‘换道超车’。”洪亮表示。
可以想见,一旦这条横穿跑道的道路被走通,我国就能在合成生物学和生物医药领域,和国际企业展开一场全新的竞争。
参考资料:
1.Zhou, B., Zheng, L., Wu, B., Tan, Y., Lv, O., Yi, K., ... & Hong, L. (2023). Protein engineering with lightweight graph denoising neural networks.Journal of Chemical Information and Modeling.
2.https://proteingym.org/benchmarks
运营/排版:何晨龙
01/ 同济团队开发新型无铂催化剂,每克制备成本不到100元,为制备金属氧化物催化材料提供指导
02/ 西工大团队造出可在超声中存在15分钟以上的声悬浮气泡,可用于地面模拟太空微重力环境
03/ 或将塑料转为小分子化合物,科学家实现聚苯乙烯的可控降解,降解产物分子量低于1000Da
04/ 北大团队发现类病毒颗粒新机制,将发展基于类病毒颗粒的RNA递送体系,助力研发新型疫苗
05/ 西交大团队实现自组装六方氮化硼纳米片制备大面积薄膜,兼具高探测率与低暗电流,可用于空间微光探测