2月19日,美國(guó)弧形研究所、美國(guó)芯片制造商英偉達(dá)公司和美國(guó)斯坦福大學(xué)等機(jī)構(gòu)的研究人員共同開(kāi)發(fā)的人工智能(AI)生物學(xué)模型Evo 2正式發(fā)布。目前,該模型已開(kāi)放給全球科研人員,他們可通過(guò)網(wǎng)頁(yè)使用該模型,還可免費(fèi)下載該模型的源代碼、訓(xùn)練數(shù)據(jù)及參數(shù)。
美國(guó)弧形研究所在其官網(wǎng)發(fā)布公報(bào)稱(chēng),在前一代模型Evo 1的基礎(chǔ)上,Evo 2已發(fā)展成為目前生物學(xué)領(lǐng)域規(guī)模最大的AI模型。Evo 1基于8萬(wàn)個(gè)細(xì)菌、古菌基因組及病毒等序列進(jìn)行訓(xùn)練,Evo 2則基于超過(guò)12.8萬(wàn)個(gè)基因組數(shù)據(jù)的9.3萬(wàn)億個(gè)核苷酸進(jìn)行訓(xùn)練。這些模型使機(jī)器能夠“用核苷酸語(yǔ)言來(lái)讀、寫(xiě)和思考”。
用于訓(xùn)練Evo 2模型的酵母等真核生物基因組圖片。圖片來(lái)源:NCMIR/Science Photo Library
據(jù)《自然》報(bào)道,在過(guò)去幾年里,科學(xué)家開(kāi)發(fā)了日益強(qiáng)大的“蛋白質(zhì)語(yǔ)言模型”,如美國(guó)互聯(lián)網(wǎng)公司Meta開(kāi)發(fā)的ESM-3模型。這類(lèi)模型通過(guò)訓(xùn)練數(shù)百萬(wàn)蛋白質(zhì)序列,已被用于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和設(shè)計(jì)包括基因編輯工具、熒光分子在內(nèi)的全新蛋白質(zhì)。
與這些模型不同,Evo 2的訓(xùn)練數(shù)據(jù)既包含指導(dǎo)蛋白質(zhì)合成的“編碼序列”,也包含可調(diào)控基因活動(dòng)時(shí)空特征的非編碼DNA。
相較于原核生物,真核基因組通常更長(zhǎng)、更復(fù)雜——基因由編碼區(qū)與非編碼區(qū)交替構(gòu)成,非編碼調(diào)控DNA可能遠(yuǎn)離其調(diào)控的基因。為處理這種復(fù)雜性,Evo 2被設(shè)計(jì)成能學(xué)習(xí)百萬(wàn)堿基范圍內(nèi)的DNA序列模式。
為驗(yàn)證該模型解析復(fù)雜基因組的能力,美國(guó)弧形研究所的生物工程師Patrick Hsu團(tuán)隊(duì)使用Evo 2預(yù)測(cè)乳腺癌相關(guān)基因BRCA1中已知突變的影響。在相關(guān)測(cè)試中,Evo 2在預(yù)測(cè)哪些突變是良性突變、哪些是潛在致病突變方面均達(dá)到90%以上的準(zhǔn)確率。
“在判斷編碼區(qū)變異是否致病方面,其表現(xiàn)接近最佳生物AI模型,已達(dá)到頂尖水平。”Hsu表示,Evo 2有助于識(shí)別患者基因組中難以解讀的變異。
此外,該模型還可用于設(shè)計(jì)新的生物工具或治療方法,且有助于節(jié)省大量用于細(xì)胞或動(dòng)物實(shí)驗(yàn)的時(shí)間和研究資金,通過(guò)找到人類(lèi)疾病的遺傳原因來(lái)加速新藥研發(fā)。
美國(guó)生物模型開(kāi)發(fā)公司Tatta Bio的計(jì)算生物學(xué)家Yunha Wang認(rèn)為,Evo 2或擅長(zhǎng)將細(xì)菌和古菌基因組的規(guī)律應(yīng)用于人類(lèi)新蛋白質(zhì)設(shè)計(jì)。
“蛋白質(zhì)語(yǔ)言模型等AI工具已引發(fā)生物設(shè)計(jì)革命。”斯坦福大學(xué)的計(jì)算生物學(xué)家Brian Hie及同事希望能用AI建模整個(gè)細(xì)胞。他們期待Evo-2等基因組模型可以幫助他們?nèi)〉酶笸黄啤?span style="display:none">uof流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM
公報(bào)強(qiáng)調(diào)稱(chēng),考慮到潛在的倫理和安全風(fēng)險(xiǎn),研究人員在Evo 2的基礎(chǔ)數(shù)據(jù)集中已排除了感染人類(lèi)和其他復(fù)雜生物的病原體,并確保該模型不會(huì)對(duì)這些病原體的相關(guān)查詢(xún)返回有效答案。
本文鏈接:生物學(xué)領(lǐng)域最大規(guī)模AI模型發(fā)布,可按需編寫(xiě)DNAhttp://m.lensthegame.com/show-11-17558-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。