摘要:強(qiáng)強(qiáng)聯(lián)合,突破 AI 蛋白質(zhì)預(yù)測模型推理性能瓶頸,支持最高 6.6k 長氨基酸序列蛋白質(zhì)的預(yù)測計(jì)算,達(dá)到目前已知最優(yōu)推理效果。

(圖:新冠病毒研究重點(diǎn)之一三聚體結(jié)構(gòu)的刺突蛋白)
近日,深勢科技與阿里云機(jī)器學(xué)習(xí) PAI 團(tuán)隊(duì)聯(lián)手,通過全新的蛋白質(zhì)結(jié)構(gòu)預(yù)測推理加速方案 FoldAcc,結(jié)合深勢Uni-Fold 最新模型代碼和參數(shù),將單次預(yù)測能支持的最大氨基酸序列長度提升至 6.6k,覆蓋99.992%已知的蛋白序列,同時(shí)推理速度顯著提升,達(dá)到目前已知的最佳推理優(yōu)化效果,將為 AI 預(yù)測蛋白質(zhì)結(jié)構(gòu)落地應(yīng)用提供重要助力。
以新冠病毒研究重點(diǎn)之一——具有三聚體結(jié)構(gòu)的刺突蛋白為例,其氨基酸序列典型總長度接近4k,原版 AlphaFold 會因?yàn)槌鲲@存限制(OOM)而無法進(jìn)行預(yù)測計(jì)算,使用 Uni-Fold + FoldAcc 則能在10分鐘左右完成 AI 推理計(jì)算。
自2020年DeepMind 推出基于深度學(xué)習(xí)模型的 AlphaFold2 以來,AI技術(shù)輔助蛋白質(zhì)結(jié)構(gòu)精確預(yù)測的相關(guān)研究備受關(guān)注,產(chǎn)學(xué)研界不斷涌現(xiàn)創(chuàng)新成果。然而,在推動(dòng) AI 蛋白質(zhì)結(jié)構(gòu)預(yù)測規(guī)模化、產(chǎn)業(yè)化落地進(jìn)程中,基礎(chǔ)設(shè)施及工具完善性、AI 模型開發(fā)與部署效率等問題,仍然是橫亙在研究者面前的難題。
2022年8月,深勢科技升級并開源Uni-Fold 項(xiàng)目,成功復(fù)現(xiàn)了AlphaFold2、AlphaFold-Multimer 模型的全尺寸從頭訓(xùn)練,并通過多項(xiàng)效率優(yōu)化,并將 AlphaFold 訓(xùn)練速度提升220%,超越 OpenFold、FastFold 等方案,惠及更多研究者。
其中,針對困擾業(yè)界已久的 Evoformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)推理性能瓶頸問題,深勢科技與阿里云PAI 團(tuán)隊(duì),基于在 AI 模型系統(tǒng)優(yōu)化領(lǐng)域的長期積累,融合多卡并行、混合精度、編譯優(yōu)化等多項(xiàng)推理優(yōu)化技術(shù),使 Uni-Fold 訓(xùn)練的模型能進(jìn)行多卡推理加速,并支持計(jì)算更長的氨基酸序列。
典型加速效果的測試結(jié)果如下(基于A100-80G GPU,并啟用bf16)
Uni-Fold 升級開源,支持復(fù)合物訓(xùn)練
作為生命科學(xué)領(lǐng)域重要的基礎(chǔ)問題,蛋白質(zhì)結(jié)構(gòu)研究關(guān)系到癌癥預(yù)警、靶向藥物研究、衰老等臨床醫(yī)學(xué)和生命科學(xué)課題。傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)研究手段,如:X射線晶體學(xué)、冷凍電鏡等,需要消耗大量時(shí)間和資源。如何快速高效并且能夠規(guī)模化地預(yù)測蛋白質(zhì)結(jié)構(gòu),一直是研究者們探尋求解的重要問題。
2021年12月,深勢科技推出 Uni-Fold v1.0.0,國際首次復(fù)現(xiàn)了AlphaFold2官方代碼的全尺寸從頭訓(xùn)練,并開源了訓(xùn)練與推理代碼;2022年8月,Uni-Fold升級并開源了最新代碼與模型參數(shù),完整支持蛋白質(zhì)單體、復(fù)合物結(jié)構(gòu)預(yù)測模型的推理與訓(xùn)練。
此次開源的Uni-Fold基于PyTorch復(fù)現(xiàn)并改進(jìn)的AlphaFold (-Multimer) 模型,支持從頭訓(xùn)練和推理部署,并且在Protein Data Bank(PDB)最新公布的、模板相似度小于40%的單體與復(fù)合物測試集上,都取得了與同類開源項(xiàng)目一致或更優(yōu)的準(zhǔn)確率。
此外Uni-Fold也進(jìn)行了多項(xiàng)效率優(yōu)化,將訓(xùn)練時(shí)間由11天縮短至約4天,顯著優(yōu)于其他同類開源項(xiàng)目。
機(jī)器學(xué)習(xí)平臺 PAI 提供全鏈路 AI 工程支撐
阿里云機(jī)器學(xué)習(xí)平臺PAI 為 Uni-Fold 項(xiàng)目提供了完善的AI工程能力。PAI 是國內(nèi)唯一連續(xù)入選 Gartner 數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺報(bào)告的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)平臺,面向AI開發(fā)及應(yīng)用全鏈路提供全面的工程化服務(wù),并具備豐富的場景化落地實(shí)踐。
針對模型推理優(yōu)化場景,PAI自研的通用推理加速器 PAI-Blade 能在不同業(yè)務(wù)場景下,通過模型系統(tǒng)聯(lián)合優(yōu)化,使模型達(dá)到最優(yōu)推理性能,兼容主流機(jī)器學(xué)習(xí)框架,適配GPU、CPU、端側(cè)設(shè)備等多類型加速設(shè)備。
其中,PAI-Blade 核心組件 BladeDISC 具備業(yè)界領(lǐng)先的動(dòng)態(tài)尺寸模型優(yōu)化、大顆粒度算子融合等編譯優(yōu)化技術(shù),在阿里巴巴集團(tuán)內(nèi)外客戶的實(shí)際生產(chǎn)場景廣泛應(yīng)用,助力實(shí)現(xiàn)高性價(jià)比的 AI 應(yīng)用部署。2022年2月,BladeDISC 項(xiàng)目正式開源。
未來,為前沿科研提供更好用的AI基礎(chǔ)設(shè)施
以 AI 蛋白質(zhì)結(jié)構(gòu)預(yù)測為典型代表,AI for Science 的科學(xué)研究新范式正取得越來越多突破,星空人工智能與生命科學(xué)、物理、化學(xué)等領(lǐng)域的技術(shù)交織,將為科學(xué)研究和產(chǎn)業(yè)進(jìn)步帶來極大推動(dòng),也對AI基礎(chǔ)技術(shù)與平臺應(yīng)用提出了新挑戰(zhàn)。
深勢科技是 AI for Science 科學(xué)研究范式的先行者,阿里云機(jī)器學(xué)習(xí)平臺 PAI 是國內(nèi)應(yīng)用最廣泛的機(jī)器學(xué)習(xí)平臺之一,我們將持續(xù)為生物醫(yī)藥、能源、材料等領(lǐng)域的研究與產(chǎn)業(yè)應(yīng)用提供更好用的AI基礎(chǔ)設(shè)施,共同推動(dòng) AI for Science 領(lǐng)域的技術(shù)生態(tài)建設(shè)。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。!:首頁 > 大數(shù)據(jù) » 超長序列,超快預(yù)測!深勢科技聯(lián)手阿里云,AI蛋白質(zhì)預(yù)測再下一城