南方財經全媒體記者鄭瑋 廣州報道
兩個多月前,最新一屆諾貝爾獎的公布讓人工智能成了“最大贏家”。
德米斯·哈薩比斯(Demis Hassabis)和約翰·江珀(John M. Jumper)兩位人工智能科學家憑借其在蛋白質結構預測方面的貢獻獲得諾貝爾化學獎。同一個月,由北京大學深圳研究生院牽頭、深圳埃空間生物科技有限公司(簡稱埃空間)參與的“提高蛋白質從頭設計的效率和可控性”項目(簡稱項目),也拿下2024年“數據要素×”大賽全國總決賽二等獎。
“哈薩比斯和江珀研發的算法AlphaFold2,初步解決了蛋白質折疊預測這個困擾了生物科學界50年的難題,該成果的發表也對我們的項目起到了推動性作用。”項目負責人之一、埃空間CEO程功接受南方財經全媒體記者專訪時表示,“但他們的算法預測的是蛋白的靜態結構。我們團隊則利用數據和算法共同驅動,進一步破解活性蛋白的運動規律,從而提升蛋白質設計效率,并實現蛋白的可控設計。”
這是廣東在此次大賽中的12個獲獎項目之一,支撐全省獲獎量位居全國第一。廣東共推薦24個項目參加全國總決賽,最終獲得一等獎2個,二等獎5個,三等獎5個,技術創新獎1個,商業價值獎1個的佳績。此前,廣東曾舉辦2024年“數據要素×”大賽廣東分賽,由廣東省政務服務和數據管理局主辦,廣東省數據要素產業協會作為大賽的執行單位,在廣州、深圳、佛山、珠海、江門、湛江6個城市設置了工業制造等12個賽道。
“榜首”背后,廣東近年已在數據要素應用方面作出許多前沿探索,其中聚焦生物醫藥領域也明確提出,要建立健全生物醫藥全鏈條數據資源體系和數據匯交共享機制,并研究開展公共數據運營試點。
談及未來“AI+生物醫藥”發展趨勢,程功表示,生命科學領域解碼的是生命語言,其需求數據具有種類多、獲取難、積累慢、投入大等特點,未來建議廣東可以進一步探索,在政府支持下推動若干企業成為行業高端CRO服務基礎設施企業,以“蛋白大數據+自動化實驗室”為載體,減少重復的硬件投入,增強AGI在指導藥物設計、合成生物發現等方面的獨特能力,“這或許會成為促進產業發展的關鍵路徑”。
“數據+算法”驅動破解蛋白運動規律
南方財經:從目前研發成果來看,項目的核心優勢和技術亮點是什么?
程功:項目在AI+蛋白質設計領域取得了重大突破,一方面是提出了一種新的冷凍電鏡成像算法,即重建蛋白酶體底物降解動態自由能面,并收集了200T特有的四維冷凍電鏡獨有數據,成果發表在國際頂級刊物Nature 2019。
同時,團隊根據該數據庫模擬了蛋白酶體構象的連續體動力學變化,研發了國際領先(First in Class)的靶點機制,成果發表在國際頂級刊物Nature 2022。采用收集的獨有數據集,我們進行多模態大模型訓練,進行蛋白質設計、生成和篩選,并將成果進行了商業轉化,目前已獲得多輪天使融資,和多家企業開展了合作。
2024年諾貝爾化學獎得主、谷歌DeepMind的Demis Hassabis和John M. Jumper在2020年用研發的AlphaFold2,在蛋白質預測關鍵評估大賽(CASP)中表現優越,但是他們的算法預測的是蛋白的靜態結構。
自然界中存在的活性蛋白都是運動的,如何了解蛋白的運動規律,對靶點和藥物的研究非常重要。
團隊利用數據和算法共同驅動,提升蛋白質設計的效率,并實現蛋白的可控設計。期待研發的藥物對靶點的針對性更強,毒副作用更小,希望老百姓吃得起,在技術上保持國際領先。
南方財經:項目推進過程中,深圳埃空間生物科技有限公司與北京大學深圳研究生院之間的合作模式是怎樣的?
程功:主要的合作方式還是偏向產學研,高校主要在做基礎研究,公司則充分發揮靈活的市場機制,參與橫向研發,在優勢領域做了創新藥自研,與其他創新藥公司的合作研發模式都在逐步開展過程中,雙方優勢互補,還在不斷探索模式過程中。
南方財經:通過此次合作參賽,團隊有哪些收獲?
程功:同臺競技的團隊都非常優秀,包括華為,騰訊和平安等國際知名度非常高的頭部企業,還有代表國家實驗室或者院士團隊出征的國內頂級科研機構。通過認真聽取他們的報告,可以了解更多科研創新的方式和思維,以及如何將科研成果產業化的經驗,受益匪淺。
構建百億級別蛋白質數據庫
南方財經:構建蛋白質設計大模型需要何種數據?這些數據如何獲取并被開發利用?
程功:項目的數據特點體現在數據種類多、數據量大、數據獲取難,精細化數據、私有化數據長期投入大。
對此,團隊通過多模態、多尺度的文本、序列、結構、氨基酸/原子相互作用數據,打造高效率、高成功率、低濕實驗成本的基于審計的蛋白質設計大模型。
具體數據包括:數十萬條來自冷凍電鏡獨有數據庫、200T私有數據精細化數據預訓練,以及百億級蛋白質數據庫、60P公共數據預訓練。
團隊集成了第一性原理量子力學計算精度和國際上已經公開的高精度原子結構數據庫、動力學和蛋白質互作數據庫、公開發表的多肽藥物結構活性關系數據集,整合開源蛋白質序列數據庫,進行數據清洗以提升數據質量,并結合特定任務進行數據擴增,構建百億級別的蛋白質數據庫,為大模型的訓練提供豐富數據集。
“數據要素×”的核心,是解決數據在多個主體之間的合理流轉和使用,其實需要解決掉數據源頭的價值型和唯一性。如果主體很容易獲得這樣數據,其實并不會主動構成完整的產業鏈合作,都會選擇單干。
我們這個項目天然在數據體系上就有這些特點存在,因此產生的數據價值也相對較高。比如,更多依靠自采的特有數據和特有算法的融合,并不完全依靠公共數據的,這樣數據有獨特性、有較高的價值和壁壘。
南方財經:目前世界范圍內有沒有其它企業或科研團隊掌握類似技術?與Relay Therapeutics等國內國際同行相比,你們的優勢是什么?
程功:對標Relay Therapeutics以虛擬動力學模擬為主的分析技術,我們解決了實驗獲得靶點動態多構像的關鍵技術,高效的覆蓋了更大更真實的時間尺度,并規避了大規模的蠻力計算,通過平衡的結合稀缺的動力學實驗數據和必要而精確的計算,可大幅提高藥物設計的準確性,創新性和高效性。
建議培育大數據基礎設施服務商
南方財經:當前,項目研發成果在產業端主要應用哪些領域?
程功:項目采用大數據進行多模態大模型訓練,能夠進行蛋白質設計、生成和篩選,逐步積累和掌握蛋白為核心的制藥關鍵大數據,并形成以數據為基礎的核心競爭力。
一方面,基于數據庫和大模型,公司將在多個場景下和行業公司合作研發,主要側重于AI制藥,將為抗癌、抗病毒、抗細菌等方面的新型小分子和蛋白質藥物研發提供新的思路和解決方案。例如,圍繞“蛋白酶+炎癥小體”兩類靶點,3-5年內將會形成3-8款世界級First-in-Class藥物研發突破。
另一方面,項目也有利于支持多特異藥物研發,該模式應用下的早期藥物發現時間可以從24個月縮短至5個月。目前,我們已就該成果與多家企業開展合作。其中,埃空間就自研了多個小分子藥物用于解決心梗等心血管疾病,目前已完成動物實驗階段。同時,團隊還與江蘇某醫藥民企合作開發創新藥物,并與慢性病管理機構達成戰略合作。
南方財經:未來隨著生成式AI模型、大型語言模型的行業化應用進一步成熟,生物制藥模式還將發生什么變化?
程功:生命科學領域有著明顯的特點,解碼的是生命語言,而非自然語言,實驗驗證過的、有標簽的數據很貴也很少,已有的數據往往來自不同場景,難以直接用于訓練任務模型。
未來AI大模型如果能和海量未標注數據,如基因組數據、蛋白質序列等深度結合,大模型基于這些數據預訓練后,再結合少數標注過的生物實驗室數據,學習生命系統的深層次表征,進而完成蛋白質結構預測、基因序列分類等下游任務,就可以預測某種新型蛋白質的功能,進而為設計全新的藥物或者生物技術提供可能。這也是傳統研究方法很難做到的創新突破。
這意味著,未來生物制藥模式可能會繼續發生變化。從理解生命到預測生命再到設計、創造生命,這也是大模型為生命科學帶來創新價值的重要體現。這可能從根本上改變了生命科學研究路徑、思維方式,推動生命科學更深入、更具前瞻性,將行業發展推進到精準醫療、個性化醫療水平。
南方財經:AI制藥模式的興起對數據要素開發提出了哪些新的要求?未來,如何更好地推動數據要素價值向生物醫藥行業延伸?
程功:AI制藥模式與一般數據要素使用模式的區別在于,政府并不像其它公共數據資源一樣,能夠全面掌握制藥領域的數據要素。但依靠單一研發企業,又往往面臨各自為戰、數據積累慢、投入大而資本市場遇冷等情況,這也導致很多創新藥研發無以為繼。
為此,我們建議可以探索在政府支持下推動若干企業成為行業高端CRO服務基礎設施企業。這批企業以“蛋白大數據+自動化實驗室”為載體,填補行業數據賦能的空白市場,減少重復的硬件投入,增強AGI在指導藥物設計、合成生物發現等方面的獨特能力。平臺化的大模型公司不僅能支持降本增效,還會大幅度提高創新能力,或許會成為促進產業發展的關鍵路徑。
本文鏈接:解碼“數據要素×”|從理解生命到設計生命,獲全國二等獎的廣東團隊憑“數據+算法”賦能生物醫藥http://m.lensthegame.com/show-1-32162-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 入駐企業90%是市外企業,廣州這家專精特新產業園跨省聯手招商
下一篇: 探路科技保險,走難而正確的路