米兰·(milan)中国官方网站-谷歌 AI 加入蛋白质解析大军!ProtENN 模型助增 680 万个蛋白质注释词条,登顶 Nature 子刊
作者:米兰·(milan)文化
更新时间:2026-04-08 08:57:56
点击数:
google AI 插手卵白质解析雄师!ProtENN 模子助增 680 万个卵白质解释词条,登顶 Nature 子刊
作者 | 陈彩娴编纂 | 岑峰要说“AI for Science”的扛年夜旗者,各人或许城市起首想到 DeepMind:2018年,DeepMind 推出卵白质折叠布局猜测模子 AlphaFold,从氨基酸序列计较猜测卵白质布局,不仅为 Alpha 系列锦上添花,奠基了其于 AI 立异上的领头羊职位地方,还有彰显了深度进修攻破其他范畴难题的潜力,生物学首当其冲。AlphaFold 出生避世后,“AI for biology”(将人工智能用在生物学研究)成为人工智能范畴的研究潮水,吸引了世界各地的优异研究者投身此中。google AI 也是此中之一。这不,近来google便发布了用在卵白质解析的呆板进修模子——ProtENN,登顶 Nature 子刊《Nature Biotechnology》。
地址:https://www.nature.com/articles/s41587-021-01179-w值患上留意的是,早于2019年,google AI 就于bioRXiv发过 ProtENN 的预印本,不知是否是近来才被 Nature 吸收?

他们将其定名为:Pfam-N。于计较机视觉中,模子凡是起首用在图象分类使命的练习,如 CIFAR-100,然后将其扩大到更专业的使命,如物体检测及定位。受此开导,google团队也决议开发一个卵白质域分类模子,于给定卵白质布局域的氨基酸序列的环境下,从 17,929 个种别(所有种别都包罗于 Pfam 数据库中)中猜测单个标签。今朝有很多模子可以用在卵白质布局域分类,但当前最前沿的要领也存于很多缺陷。起首,它们基在线性序列的比对于,而且不思量卵白质序列差别部门的氨基酸之间的彼此作用。然而,卵白质不单单逗留于一行氨基酸中,还有会折叠起来,如许不相邻的氨基酸也会彼此影响。此外,当前最前沿的要领是将新的查询序列与一个或者多个具备已经知功效的序列举行比对于。假如新序列与任何具备已经知功效的序列高度差别,这类对于具备已经知功效的序列的依靠就会加年夜猜测新序列功效的难度。别的,基在比对于的要领需要密集的计较量,将它们运用在年夜型数据集(例如包罗跨越 10 亿个卵白质序列的宏基因组数据库 MGnify)时,成本会很是昂扬。2google AI 怎么做?为相识决这些问题,google团队想到了利用扩张卷积神经收集(CNN),由于“它很是合适模仿非局部成对于氨基酸的彼此作用,而且可以于 GPU 等现代 ML 硬件上运行”。他们练习了一维 CNN (称之为“ProtCNN”)来猜测卵白质序列的分类,以和一组自力练习的 ProtCNN 模子(称之为“ProtENN”),目的是经由过程开发一种靠得住的呆板进修要领来增补传统的基在对于齐的要领的缺陷。与其他范畴的分类问题相似,卵白质功效猜测的挑战不于在为使命开发全新的模子,而更多于在创立公允的练习及测试集,以确保模子可以或许对于看不见的数据举行正确的猜测。因为卵白质是从配合的先人那进化而来的,是以差别的卵白质凡是同享一年夜部门氨基酸序列。假如不加以留意,测试集可能会被与练习数据高度相似的样本所节制,从而使模子可能仅经由过程简朴地“影象”练习数据而不是进修来泛化模子的优秀机能。为了避免这类环境,研究者必需利用多个零丁的设置来评估模子机能。于每一次评估中,他们都将模子精度分层为每一个保留测试序列与练习集中近来序列之间的相似性函数。第一个评估包括一个聚类破裂练习及测试集,与先前研究者提出的要领一致。此中,卵白质序列样本顺次列相似性举行聚类,并将整个聚类放入练习集或者测试集中。由此,每一个测试示例与每一个练习示例之间至少有 75% 的差异。于此使命上的精彩体现注解,他们所提出的模子可以泛化、以对于漫衍外的数据做出正确的猜测。

今朝,ProtENN 模子的架构已经于 github 上开放。此外,他们还有设计了一个交互东西 ProteInfer,用户可以于阅读器中输入卵白质序列,并及时得到卵白质功效猜测的成果:
项目地址:https://谷歌-research.github.io/proteinfer/AI 解析卵白质还有能更卷吗?各人怎么看?参考链接:1.https://ai.谷歌blog.com/2.https://www.nature.com/articles/s41587-021-01179-w3.https://github.com/谷歌-research/谷歌-research/tree/master/using_dl_to_annotate_protein_universe#availability-of-trained-models4.http://pfam.xfam.org/
雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





