16分钟优化mRNA疫苗稳定性!百度AI算法LinearDesign问世.txt2020年06月26日21时57分53秒

作者: 发表时间:2020-06-26 19:37:52 浏览人数:406

世界上已经有400多万人被诊断出感染了这种新型冠状病毒。疫苗是结束这行病的关键赢家。在目前发展的疫苗途径中,mRNA疫苗作为一种新兴技术,其研发速度更快、潜力更大,引起了国内外的广泛关注。但同时,由于缺乏稳定性,mRNA疫苗在储存和运输过程中容易降解,成为最迫切需要解决的问题。

现在,困扰世界疫苗公司和学术界的生物问题有望通过人工智能解决!5月13日,百度研究院推出了全球mRNA疫苗基因序列设计算法lineardesign。该算法理论上可以设计出最稳定、蛋白质表达效率更高的mRNA序列,只需90分钟。如果进一步应用线性时间近似算法,时间可以缩短到16分钟!

罗切斯特大学生物化学和生理学教授大卫·h·马修斯博士说:线性符号的优点是速度快!它可以快速提供一系列优良的序列,研究人员还可以通过实验进一步检验其稳定性是否足以作为疫苗。

事实上,从许多能翻译同一蛋白质的同源序列中很难找到具有稳定二级结构和足够密码子优化的mRNA序列。在新冠状病毒的例子中,尖峰蛋白(抗原)含有1273个氨基酸,可以翻译成尖峰蛋白的mRNA序列的能量为10到632!

如果一台超级计算机能在一秒钟内计算出一个mRNA结构,那么从宇宙形成之初到现在,它能计算出140亿年,甚至有十亿分之一的可能mRNA序列都无法计算!

为了找到更佳的mRNA,科学家们传统上随机改变序列,看看它是否有益。目前,科学界也在寻找不同的解决问题的策略。例如,由卡内基梅隆大学、斯坦福大学和百度联合开发的eterna平台,旨在通过解谜吸引全球玩家共同设计安全稳定的mRNA。eterna平台使用的是百度今年1月底开放的linearfold算法作为其结构分析引擎。

Linearfold是一个非常成功的实验项目。它成功地将生物问题转化为形式语言理论和计算机语言学的经典问题。受linearfold的启发,百度研究院的研究团队不仅进行了结构分析,还进一步利用计算机科学设计出了更稳定、蛋白质表达水平更高的mRNA序列。由此产生了线序符号。

对于多达10632个功率mRNA序列,线性设计使用动态规划算法来减少搜索空间。我们知道,在alphago问世之前,人工智能一直无法打败人类玩家。主要原因是围棋的搜索空间太大。有三个19x19功率状态,大约10172功率状态。可见,mRNA序列设计的搜索空间远大于go。

在此基础上,将氨基酸的DFA串联起来,得到蛋白质序列的DFA图。如下图所示,是methionileucine stop示例序列的DFA图。

接下来,我们需要通过DFA找到最稳定的二级结构mRNA序列。这里,百度研究院借用了计算机语言学中常用的一种工具,即随机上下文无关语法(SCFG),来指代RNA折叠。RNA的二级结构可以用SCFG构建语法树来表达。

mRNA疫苗序列设计的优化问题实际上是将单个RNA序列的二级结构计算(rnafolding)扩展到多个RNA序列。在用DFA提取多个RNA序列后,研究人员通过DFA与SCFG的交叉,从多个mRNA序列中找到了二级结构最稳定的序列。

从上图中新型冠状病毒的spike蛋白实验结果可以看出,与最左侧图a中抗体对应的mRNA序列相比,右侧人工智能设计的二级结构非常接近。全局更优序列图C只需1.6小时就可以设计出来!如图B所示,如果进一步应用线性时间近似算法,则设计时间将缩短至16分钟。这种技术也适用于所有的mRNA疫苗设计。

疫苗研发是一个费时费力的世界性难题。利用人工智能、计算机科学和技术的疫苗研发正在加速。目前,百度研究院已免费开通了lineardesign网站,相关论文已在arXiv上发表,可供全球研究机构和疫苗研发企业使用。百度与中国疾病预防控制中心病毒性疾病预防控制研究所签署了战略合作协议。今后还将利用百度lineardesign算法设计的mRNA疫苗序列进行体外实验,验证疫苗的稳定性和蛋白表达效率。相信在全球科研人员的共同努力下,疫苗研发的进程将不断加快!

统计 字数: 10594 汗字: 8619 数字:46 大写字母:115 小写字母:748 符号:1066 总字节数:19213 共:28行2020年06月26日21时57分54秒

Top
RELATEED CONSULTING相关咨询
选择下列产品马上在线沟通
服务时间:9:00-19:00
你可能遇到了下面的问题