色丁香婷婷五月天综合影院,绯色av色欲AV无码一区,久久精品无码一区二区三区免费,国产 日韩 欧美综合在线

請(qǐng)輸入關(guān)鍵字
搜索

太初資訊

跨越技術(shù)壁壘,打破固有模式,用智慧重新鏈接關(guān)系。

太初元碁×百度螺旋槳×神威數(shù)智 | 國(guó)內(nèi)首個(gè)成功復(fù)現(xiàn)AlphaFold3

近年來,大模型技術(shù)在生物信息學(xué)領(lǐng)域取得了眾多突破性進(jìn)展,引起全球的廣泛關(guān)注,特別是在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的革命性成就,贏得了科學(xué)和產(chǎn)業(yè)界的高度認(rèn)可。其中,AlphaFold系列模型擁有預(yù)測(cè)蛋白質(zhì)單鏈、復(fù)合體以及復(fù)雜生物分子結(jié)構(gòu)的能力,其準(zhǔn)確性堪比真實(shí)實(shí)驗(yàn),極大地促進(jìn)了生命科學(xué)的發(fā)展。特別是AlphaFold3能夠預(yù)測(cè)生物分子間的相互作用,極大助力于藥物研發(fā)合成,但由于算法未開源,限制了其在更廣泛的科研領(lǐng)域中的應(yīng)用和發(fā)展。盡管有團(tuán)隊(duì)嘗試根據(jù)AlphaFold3的論文進(jìn)行復(fù)現(xiàn),但目前也僅完成了代碼部分,尚未實(shí)現(xiàn)實(shí)際訓(xùn)練,因此尚未能應(yīng)用于實(shí)際科研中。


太初元碁與百度螺旋槳團(tuán)隊(duì)以及神威數(shù)智組成的聯(lián)合研發(fā)團(tuán)隊(duì)成功完成AlphaFold3模型的全復(fù)現(xiàn)工作,突破DeepMind在該領(lǐng)域的技術(shù)高地。此次AlphaFold3的國(guó)產(chǎn)化復(fù)現(xiàn),不僅是一次技術(shù)革新,更是我國(guó)科技生態(tài)建設(shè)的重要里程碑,提升了國(guó)產(chǎn)大模型研發(fā)技術(shù)在全球AI大模型領(lǐng)域的競(jìng)爭(zhēng)力。


本次成功復(fù)現(xiàn)AlphaFold3模型,基于百度螺旋槳團(tuán)隊(duì)在HelixFold、HelixFold-Single、HelixFold2(HelixFold-Multimer)以及HelixDock等一系列工作中積累的豐富模型訓(xùn)練和數(shù)據(jù)處理經(jīng)驗(yàn);結(jié)合太初元碁與神威數(shù)智在異構(gòu)眾核體系架構(gòu)和大規(guī)模并行計(jì)算領(lǐng)域的專業(yè)優(yōu)勢(shì),及在生命科學(xué)領(lǐng)域和新藥研發(fā)方向的深厚積淀;依托國(guó)家超級(jí)計(jì)算無錫中心“太湖之光A+”智能超算系統(tǒng)提供的強(qiáng)大計(jì)算資源支持。聯(lián)合研發(fā)團(tuán)隊(duì)優(yōu)勢(shì)互補(bǔ)、協(xié)同合作,為業(yè)界首個(gè)AlphaFold3的全復(fù)現(xiàn)大模型奠定了基礎(chǔ)。


試用申請(qǐng)


AlphaFold3模型最新試用版本已于8月28日上線,

歡迎對(duì)AlphaFold3或聯(lián)合研發(fā)團(tuán)隊(duì)相關(guān)工作感興趣的科研機(jī)構(gòu)和商業(yè)公司

通過郵箱:husl@tecorigin.com 與我們聯(lián)系。

也可點(diǎn)擊底部“閱讀原文”,獲取試用鏈接,

或復(fù)制下方鏈接:http://223.108.218.41:8067/ 在瀏覽器中打開,

即可搶先試用!



具體技術(shù)性能

聯(lián)合研發(fā)團(tuán)隊(duì)克服了一系列挑戰(zhàn),如:模型結(jié)構(gòu)復(fù)雜、數(shù)據(jù)高度復(fù)雜,訓(xùn)練和運(yùn)行所需的計(jì)算資源龐大等。在模型層面,AlphaFold3相較于AlphaFold2,增加了原子級(jí)建模,使得整體結(jié)構(gòu)更加復(fù)雜,計(jì)算量也顯著增加。同時(shí),AlphaFold3采用了擴(kuò)散模型進(jìn)行所有原子坐標(biāo)的端到端推理。在數(shù)據(jù)處理方面,AlphaFold3不僅需要建模蛋白質(zhì),還必須處理小分子配體、核酸和離子等多種生物分子,復(fù)雜的數(shù)據(jù)預(yù)處理和大規(guī)模自蒸餾數(shù)據(jù)生成對(duì)模型性能的提升至關(guān)重要。

目前,復(fù)現(xiàn)工作在常規(guī)的小分子配體、核酸分子(包括 DNA 和 RNA)以及蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)精度上已與 DeepMind發(fā)布的AlphaFold3相媲美,并在模型置信度上達(dá)標(biāo)。


小分子配體

    

為了評(píng)估在蛋白質(zhì)-配體結(jié)構(gòu)預(yù)測(cè)中的效果,聯(lián)合研發(fā)團(tuán)隊(duì)將復(fù)現(xiàn)工作與其他主流方法在PoseBusters數(shù)據(jù)集上的表現(xiàn)進(jìn)行了對(duì)比。其中:
  • 數(shù)據(jù)集PoseBusters:一個(gè)用于評(píng)估配體對(duì)接算法的基準(zhǔn)數(shù)據(jù)集, PoseBusters V1包含428個(gè)結(jié)構(gòu),PoseBusters V2是排除了與多個(gè)生物分子單元內(nèi)距離小于5.0?的配體數(shù)據(jù)后,精簡(jiǎn)的308個(gè)結(jié)構(gòu)。
  • 對(duì)比的基線方法分為三類:不指定真實(shí)蛋白質(zhì)結(jié)構(gòu)的方法、指定已知蛋白質(zhì)結(jié)構(gòu)的方法,以及指定活性位點(diǎn)殘基的方法。
結(jié)果顯示在這兩個(gè)版本的數(shù)據(jù)集上,復(fù)現(xiàn)工作即便在沒有指定蛋白質(zhì)結(jié)構(gòu)的情況下,仍然展示出卓越的表現(xiàn),成功率甚至超過了依賴已知蛋白質(zhì)結(jié)構(gòu)的方法,其預(yù)測(cè)精度與目前頂尖的AlphaFold3相當(dāng),這表明復(fù)現(xiàn)工作在蛋白質(zhì)-配體相互作用預(yù)測(cè)領(lǐng)域的出色潛力。

模型預(yù)測(cè)的配體結(jié)構(gòu)在立體化學(xué)和物理合理性是大家所關(guān)注的,使用PoseBusters測(cè)試套件可以評(píng)估分子內(nèi)部和分子之間的各種合理性指標(biāo)。無論是復(fù)現(xiàn)工作還是DeepMind 發(fā)布的AlphaFold3,在幾乎所有指標(biāo)上都達(dá)到了90%以上的通過率。

▲ 圖1  PoseBusters V1數(shù)據(jù)集上AlphaFold3復(fù)現(xiàn)工作與同類模型的精度表現(xiàn)


圖2 PoseBusters V2數(shù)據(jù)集上AlphaFold3復(fù)現(xiàn)工作與同類模型的精度表現(xiàn)


圖3 Alphafold3復(fù)現(xiàn)工作與同類模型的PoseBusters V2 quality check精度對(duì)比



核酸分子

    

由于核酸分子的結(jié)晶結(jié)構(gòu)數(shù)量很少,完全無人為干預(yù)地自動(dòng)化地準(zhǔn)確預(yù)測(cè)其結(jié)構(gòu)一直是一個(gè)巨大的挑戰(zhàn)。

對(duì)于核酸分子效果的評(píng)估,復(fù)現(xiàn)工作在CASP15(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的重要國(guó)際競(jìng)賽)中有結(jié)晶結(jié)構(gòu)的RNA樣本及從Protein Data Bank(PDB)中最新收集的41個(gè)RNA分子和41個(gè)DNA分子進(jìn)行評(píng)測(cè)。


結(jié)果顯示:復(fù)現(xiàn)工作在CASP15的RNA樣本的精度雖然還不及有人工干預(yù)的方法AIchemy_RNA2,但在能夠完全自動(dòng)化推理的RNA模型當(dāng)中,已經(jīng)達(dá)到了與AlphaFold3相當(dāng)?shù)乃健T趶腜DB最新收集的RNA和DNA的結(jié)構(gòu)預(yù)測(cè)上,復(fù)現(xiàn)工作的精度亦是極具競(jìng)爭(zhēng)力,遠(yuǎn)超專門為核酸分子結(jié)構(gòu)預(yù)測(cè)所設(shè)計(jì)模型RoseTTAFold2NA和另一個(gè)全原子生物分子結(jié)構(gòu)預(yù)測(cè)模型RoseTTAFold-AllAtom。


圖4 Alphafold3復(fù)現(xiàn)工作與同類模型在CASP15上的精度對(duì)比


圖5 Alphafold3復(fù)現(xiàn)工作與同類模型在PDB RNA-only與PDB DNA-only數(shù)據(jù)集上的LDDT評(píng)估值對(duì)比


蛋白質(zhì)


在蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,盡管AlphaFold-Multimer在先前模型的基礎(chǔ)上實(shí)現(xiàn)了顯著的進(jìn)步,但其成功率和準(zhǔn)確性仍有進(jìn)一步提升的空間。聯(lián)合研發(fā)團(tuán)隊(duì)的復(fù)現(xiàn)工作在此基礎(chǔ)上進(jìn)一步優(yōu)化了預(yù)測(cè)能力,展現(xiàn)出更為優(yōu)異的性能。


結(jié)果顯示:復(fù)現(xiàn)工作在蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)方面已經(jīng)略微超越了AlphaFold-Multimer的表現(xiàn),展示出更強(qiáng)的預(yù)測(cè)能力。然而,與AlphaFold3相比,復(fù)現(xiàn)工作仍存在一定的性能差距。因此,未來的研究工作將繼續(xù)致力于優(yōu)化和迭代,以縮小這一差距,力求在復(fù)現(xiàn)工作的預(yù)測(cè)精度和成功率上進(jìn)一步提升。


▲ 圖6 Alphafold3復(fù)現(xiàn)工作與同類模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)任務(wù)上的Docka分值對(duì)比


▲ 圖7 Alphafold3復(fù)現(xiàn)工作與同類模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)任務(wù)上的Docka>0.23分值對(duì)比



模型置信度


復(fù)現(xiàn)工作結(jié)構(gòu)預(yù)測(cè)模型的置信度評(píng)分,可用于評(píng)估模型預(yù)測(cè)的結(jié)構(gòu)準(zhǔn)確性。復(fù)現(xiàn)工作分別對(duì)小分子配體-蛋白質(zhì)數(shù)據(jù)集PoseBusters和從PDB中收集的蛋白質(zhì)-蛋白質(zhì)復(fù)合體,RNA分子和DNA分子輸出的置信度評(píng)分,都可以觀測(cè)到置信度評(píng)分與結(jié)構(gòu)的準(zhǔn)確性間具有很強(qiáng)的相關(guān)性。


▲ 圖8 Alphafold3復(fù)現(xiàn)工作在小分子配體-蛋白質(zhì)數(shù)據(jù)集上的預(yù)測(cè)置信度分布


▲ 圖9 Alphafold3復(fù)現(xiàn)工作在蛋白質(zhì)-蛋白質(zhì)復(fù)合體數(shù)據(jù)集上的預(yù)測(cè)置信度分布


圖10 Alphafold3復(fù)現(xiàn)工作在RNA分子數(shù)據(jù)集上的預(yù)測(cè)置信度分布 


聯(lián)合研發(fā)團(tuán)隊(duì)后續(xù)會(huì)對(duì)模型進(jìn)行持續(xù)地更新迭代,使之在更豐富的數(shù)據(jù)集和應(yīng)用場(chǎng)景上發(fā)揮價(jià)值。同時(shí)太初元碁將繼續(xù)致力于技術(shù)創(chuàng)新和生態(tài)建設(shè),推動(dòng)更多前沿科技的國(guó)產(chǎn)化進(jìn)程,打造更加完善的國(guó)產(chǎn)技術(shù)生態(tài)體系。