作为生命活动的核心元素,RNA具有复杂的三维结构与动态性特征,直接调控着基因表达、病毒复制等关键生物过程,然而RNA结构研究长期存在技术瓶颈成为科学界的一大难题。
3月14日,复旦大学与四川大学华西医院团队的合作研究成果以“Cryo-EM reveals mechanismsof natural RNA multivalency”为题发表在《科学》(Science)杂志上,作为复旦AI4S(AI for Science)的又一硕果,该研究创新性地将深度学习技术与冷冻电镜技术相结合,为RNA生物学研究开辟了全新的技术路径,不仅显著提升RNA结构解析的效率,更为新药研发提供了重要技术支撑和理论指导。
突破RNA结构研究的“盲盒”困境
传统的RNA结构解析方法面临实验成本高昂、预测精度不足等难题。冷冻电镜虽然能够解析高分辨率结构,但要筛选出能够形成稳定构象的RNA序列,仍然需要耗费大量资源。此外,现有算法还依赖于Rfam数据库等二级结构信息。
“RNA有很多家族,此前在解析RNA结构时,科研人员往往不确定应该选择哪些序列进行解析。”复旦大学智能复杂体系实验室研究员、文章共同通讯作者孙思琦解释道,“这就像开‘盲盒’,我们只能猜测哪些家族的序列可能具有稳定的结构。”
面对这一困境,团队决定引入人工智能技术。孙思琦本科毕业于复旦大学数学科学学院,博士期间在美国攻读计算机专业,研究方向为计算生物学,毕业后在美国微软研究院开展大语言模型相关的研究。回国后,他和团队开始尝试用AI大模型解决生物问题,RNA结构研究是他们持续关注的方向之一。复旦大学智能复杂体系实验室博士生吴浩、许晟为本文共同第一作者。
孙思琦团队与合作团队共同突破三大技术:提出高速高灵敏度的蛋白质同源物检测方法,实现远程同源物的快速识别;开发高精度端到端RNA三维结构预测方法,建立全链条结构解析框架;设计基于非自回归神经网络的蛋白质谱快速解析算法,攻克质谱数据高效解码难题。通过融合大语言模型与对比学习技术,该系列成果在蛋白质检测、RNA结构预测、蛋白质测序等方向同步提升AI算法的速度与精度。相关研究成果于近期发表于《自然》(Nature)子刊,为本工作奠定了基础。
在这项最新研究中,复旦大学与华西医院团队紧密合作。复旦大学团队负责AI算法的开发,而四川大学华西医院则负责使用冷冻电镜对RNA结构进行解析。
“通过将AI与实验相结合,我们可以精确预测出哪些RNA序列具有稳定的结构。”孙思琦表示。基于AI的分析结果,实验人员在解析这些结构时,只需关注那些被推荐的序列,科研效率得到了大幅提升。
自主研发RNA序列大模型
此前,在RNA结构预测领域,传统AI方法往往局限于已知结构的简单解析。联合团队创新性地将深度学习与冷冻电镜结合,研发出CRAFTS智能筛选系统,实现对多聚体RNA复杂构象的高效预测,为解析动态RNA结构提供了“AI导航仪”。
团队研发的CRAFTS模型(Contrastive RNA learning For sTructure Screening),利用深度学习技术,能够从海量RNA序列中挖掘潜在的折叠规律,为冷冻电镜实验提供精准的筛选工具,从而显著提高效率并降低实验成本。
图2:CRAFTS的性能评估,分析RNA家族结构特征。A. 对比学习用于确定输入对是否属于同一RNA家族。 B. 微调模型以从每个RNA家族的序列中提取结构特征。 C基准数据性能表现:平均ROC曲线及标准差(基于5折交叉验证)。D. 对5S rRNA、I类内含子、CP II类内含子等家族分析。通过实验结构测定验证的序列以橙色标注。
在技术架构和创新应用上,CRAFTS模型展现了显著的突破性进展。基于RNAcentral、NCBI等权威数据库的10亿多条非冗余RNA序列,模型通过自监督学习提取RNA序列的语义特征,生成深度表征。
基于该模型,团队构建了超过900万对RNA序列,最大化同一RNA家族内序列的相似性,最小化不同RNA家族序列之间的相似性,从而精准提取家族特异的结构特征。
团队利用Rfam数据库中4038个RNA家族的数据进行训练,整合了未解析的RNA种子序列作为伪负类,显著扩展了训练数据的范围。这种数据增强策略大幅提升了模型的泛化能力,尤其是在数据稀缺的场景下,模型表现尤为突出。在仅有364个正样本的训练集中,CRAFTS通过5折交叉验证展现了高鲁棒性,测试结果的标准差低于0.03。
图3:冷冻电镜结构。A. ARRPOF 二聚体双构象冷冻电镜结构。B. OLE 二聚体冷冻电镜结构。C. ROOL 六聚体和八聚体冷冻电镜结构。D. GOLLD 十二聚体冷冻电镜结构。
实际应用中,CRAFTS模型不仅在经典RNA家族(如5S rRNA、I型内含子和II型内含子)中表现优异,还成功应用于ARRPOF、OLE、ROOL和GOLLD等新RNA家族的结构筛选。
CRAFTS模型与冷冻电镜技术的深度协同,成功突破了RNA结构筛选中的“盲盒”困境,为RNA结构生物学研究提供了全新的工具。这一研究成果不仅提升了RNA三级结构解析的效率,还为探索RNA多态性在生命活动中的潜在功能开辟了新的可能性。
“RNA的结构预测,其实还远远没有被完全解决。”孙思琦表示,通过进一步优化模型,可以提升其在不同RNA家族中的预测能力。“目前RNA相关的高质量数据非常有限,AI赋能的科研方法将在未来发挥更大的优势。”
基于RNA结构分析和筛选,科研人员能够更有效地判断哪些分子可以与RNA结合,从而加速RNA小分子药物的研发。这一突破不仅显著提升了RNA结构解析的精度和效率,更为新药研发提供了重要的技术支撑和理论指导。
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。