當前,人工智能已經全面滲透到科學研究的各個領域。以化學學科為例,得益于AI的應用,化學反應預測與新化學物質的發現、化學試驗的自動化與智能化等均取得了顯著突破。特別是人工智能驅動的機器人,即“機器化學家”,可以自動閱讀文獻、遠程執行實驗方案、借助計算機即時優化實驗條件,將科研人員從重復繁雜的勞動中解放出來,大大提升了科研活動效率。然而,筆者在調研中發現,機器化學家仍然面臨諸多問題與挑戰,需要加強統籌部署。
機器化學家未來發展面臨諸多問題
機器化學家是能夠自主執行化學研究的人工智能機器人。與其他復雜的實驗室系統相比,機器化學家具有完整的人工智能軟件、復雜的內部循環(如假設生成、選擇、評估和完善)以及以高通量執行單獨規劃的循環實驗能力。
目前,機器化學家廣泛應用于新型分子合成和功能材料創制等方面,幫助科研人員解決了大量科學難題。
但筆者調研發現,雖然我國機器化學家在智能化學創新領域已經居于全球領跑地位,但其在核心算法和算力、高質量化學數據集方面仍存在不足,未來發展面臨相關研究人才缺乏、資源平臺分散等問題。
第一,原創核心算法和算力不足。一是我國在算法領域缺乏以數學為基礎的原始核心模型、代碼和框架創新,機器化學家與國外同類平臺相比仍有差距。例如,當前英國利物浦大學的研究團隊研發的機器化學家采用了啟發式算法,將化學家長期積累的專業知識巧妙融入到機器化學家的決策流程中,在處理化學實驗問題時具有獨特優勢。二是我國在算力領域仍面臨一些“卡脖子”問題。中國科技大學等單位自主研發的ChemGPT是一種化學領域的聊天機器人程序,可以基于論文知識來建議實驗方案等,但因為GPU算力不足,ChemGPT“跑不快”,訓練迭代很慢。
第二,缺乏高質量的化學數據集。雖然機器化學家已經建立了包含8000萬化合物、1000萬化學反應等資源的數據庫和檢索引擎,但目前依然面臨實驗數據缺乏和實驗數據標準化不夠等問題。一是目前數據大多來源于國外數據庫,獲取成本很高。二是數據采集過程不統一,不同設備、環境、操作人員得到的數據有很大差異。實驗生成的不同類型的數據包括圖像、結構數據等格式不同。三是數據質量有待提高。化學研究的精準化和智能化依賴實驗數據的準確性,但現階段我國高質量的科研數據較為匱乏,很多科研數據都從文獻中收集,而文獻中的數據常常是被“美化”過的理想數據。
第三,缺乏“人工智能+化學”的復合型人才。機器化學家的發展需要化學、物理、數學、計算機、自動化等多學科專業人才的跨學科合作,但目前大多數人才都是單學科人才。雖然有些高校和科研機構已經開始積極探索跨學科的課程設計和項目合作,但仍處于起步階段。同時,行業內部缺乏有效的內部培養和培訓機制。此外,相關領域的技術工程師同樣缺乏。
第四,缺乏高度整合且開放的人工智能資源平臺。目前,中國科學技術大學、北京大學、清華大學、浙江大學、華東師范大學、中國科學院寧波材料技術與工程研究所等單位多個化學研究團隊都在進行機器化學家的相關研究與部署,其中不免出現“百模大戰”,數據庫、算力平臺等資源分散、重復建設等情況,缺乏一個共建的開放式人工智能資源平臺,使各團隊實驗數據可以交匯、共享,自動提煉出數字化知識圖譜和人工智能模型,進而指導機器化學家自動優化,研制出更好、更高效的化學品。
加強部署搶占未來化學研究制高點
當前,人工智能已經成為各國爭奪未來化學研究制高點的抓手。針對目前機器化學家面臨的問題與挑戰,建議從數據、人才、技術攻關等方面加強部署。
第一,加快建設高質量的化學數據庫或知識庫。破除數據壁壘,整合國內目前已有的相關數據庫和分散存在的小型數據庫,對數據格式、標準、工具及代碼等進行統一規劃設計,進一步提升相關數據庫的數據質量。加強人工智能模型訓練的化學數據庫建設,使用新的人工智能模型生成高質量數據。發展具有可遷移性的機器學習算法,實現數據的高效、高精度提取,為數據驅動的智能化學提供基礎。將化學數據庫和知識庫作為重要研究成果,納入科研人員考評、項目驗收機制。
第二,盡快重構化學研究人才體系。人工智能驅動的化學研究既需要科研人員具備扎實的基礎和開放的心態,還需要多領域人才協作。應在高校本科化學系設置編程、人工智能和自動化課程,鼓勵學生進行STEM與社會科學課程的交叉學習,為研究生與博士后提供項目實踐機會。同時,企業也要承擔培訓責任,通過定制化培訓計劃,為有潛質的人才搭建跨領域成長橋梁。加快建立跨學科跨領域合作機制,鼓勵人工智能研究人員與基礎科學領域研究人員、工程師通力合作。
第三,形成多地聯動、多機構聯合的工作機制,推動國內機器化學家研究團隊進行深度合作和共同推廣。加強技術、工程與科學的有機結合,以機器為載體、以數據為要素,加速擴大機器化學家智能平臺的規模,發展可自主解決科學難題的強化學智能,形成針對化學智能的符號語言與數據智能驅動的科學方法論。
總之,政府部門應針對國際競爭重點領域,加強頂層設計,集中產學研多方資源,發揮機器化學家的賦能作用。由產業部門提供化學應用領域的大量數據和應用場景,高校和科研機構提出相應科學問題,并提供智力資源,產學研各方共同助力化學重點領域的技術研發與應用。
當前,人工智能已經全面滲透到科學研究的各個領域。以化學學科為例,得益于AI的應用,化學反應預測與新化學物質的發現、化學試驗的自動化與智能化等均取得了顯著突破。特別是人工智能驅動的機器人,即“機器化學家”,可以自動閱讀文獻、遠程執行實驗方案、借助計算機即時優化實驗條件,將科研人員從重復繁雜的勞動中解放出來,大大提升了科研活動效率。然而,筆者在調研中發現,機器化學家仍然面臨諸多問題與挑戰,需要加強統籌部署。
機器化學家未來發展面臨諸多問題
機器化學家是能夠自主執行化學研究的人工智能機器人。與其他復雜的實驗室系統相比,機器化學家具有完整的人工智能軟件、復雜的內部循環(如假設生成、選擇、評估和完善)以及以高通量執行單獨規劃的循環實驗能力。
目前,機器化學家廣泛應用于新型分子合成和功能材料創制等方面,幫助科研人員解決了大量科學難題。
但筆者調研發現,雖然我國機器化學家在智能化學創新領域已經居于全球領跑地位,但其在核心算法和算力、高質量化學數據集方面仍存在不足,未來發展面臨相關研究人才缺乏、資源平臺分散等問題。
第一,原創核心算法和算力不足。一是我國在算法領域缺乏以數學為基礎的原始核心模型、代碼和框架創新,機器化學家與國外同類平臺相比仍有差距。例如,當前英國利物浦大學的研究團隊研發的機器化學家采用了啟發式算法,將化學家長期積累的專業知識巧妙融入到機器化學家的決策流程中,在處理化學實驗問題時具有獨特優勢。二是我國在算力領域仍面臨一些“卡脖子”問題。中國科技大學等單位自主研發的ChemGPT是一種化學領域的聊天機器人程序,可以基于論文知識來建議實驗方案等,但因為GPU算力不足,ChemGPT“跑不快”,訓練迭代很慢。
第二,缺乏高質量的化學數據集。雖然機器化學家已經建立了包含8000萬化合物、1000萬化學反應等資源的數據庫和檢索引擎,但目前依然面臨實驗數據缺乏和實驗數據標準化不夠等問題。一是目前數據大多來源于國外數據庫,獲取成本很高。二是數據采集過程不統一,不同設備、環境、操作人員得到的數據有很大差異。實驗生成的不同類型的數據包括圖像、結構數據等格式不同。三是數據質量有待提高。化學研究的精準化和智能化依賴實驗數據的準確性,但現階段我國高質量的科研數據較為匱乏,很多科研數據都從文獻中收集,而文獻中的數據常常是被“美化”過的理想數據。
第三,缺乏“人工智能+化學”的復合型人才。機器化學家的發展需要化學、物理、數學、計算機、自動化等多學科專業人才的跨學科合作,但目前大多數人才都是單學科人才。雖然有些高校和科研機構已經開始積極探索跨學科的課程設計和項目合作,但仍處于起步階段。同時,行業內部缺乏有效的內部培養和培訓機制。此外,相關領域的技術工程師同樣缺乏。
第四,缺乏高度整合且開放的人工智能資源平臺。目前,中國科學技術大學、北京大學、清華大學、浙江大學、華東師范大學、中國科學院寧波材料技術與工程研究所等單位多個化學研究團隊都在進行機器化學家的相關研究與部署,其中不免出現“百模大戰”,數據庫、算力平臺等資源分散、重復建設等情況,缺乏一個共建的開放式人工智能資源平臺,使各團隊實驗數據可以交匯、共享,自動提煉出數字化知識圖譜和人工智能模型,進而指導機器化學家自動優化,研制出更好、更高效的化學品。
加強部署搶占未來化學研究制高點
當前,人工智能已經成為各國爭奪未來化學研究制高點的抓手。針對目前機器化學家面臨的問題與挑戰,建議從數據、人才、技術攻關等方面加強部署。
第一,加快建設高質量的化學數據庫或知識庫。破除數據壁壘,整合國內目前已有的相關數據庫和分散存在的小型數據庫,對數據格式、標準、工具及代碼等進行統一規劃設計,進一步提升相關數據庫的數據質量。加強人工智能模型訓練的化學數據庫建設,使用新的人工智能模型生成高質量數據。發展具有可遷移性的機器學習算法,實現數據的高效、高精度提取,為數據驅動的智能化學提供基礎。將化學數據庫和知識庫作為重要研究成果,納入科研人員考評、項目驗收機制。
第二,盡快重構化學研究人才體系。人工智能驅動的化學研究既需要科研人員具備扎實的基礎和開放的心態,還需要多領域人才協作。應在高校本科化學系設置編程、人工智能和自動化課程,鼓勵學生進行STEM與社會科學課程的交叉學習,為研究生與博士后提供項目實踐機會。同時,企業也要承擔培訓責任,通過定制化培訓計劃,為有潛質的人才搭建跨領域成長橋梁。加快建立跨學科跨領域合作機制,鼓勵人工智能研究人員與基礎科學領域研究人員、工程師通力合作。
第三,形成多地聯動、多機構聯合的工作機制,推動國內機器化學家研究團隊進行深度合作和共同推廣。加強技術、工程與科學的有機結合,以機器為載體、以數據為要素,加速擴大機器化學家智能平臺的規模,發展可自主解決科學難題的強化學智能,形成針對化學智能的符號語言與數據智能驅動的科學方法論。
總之,政府部門應針對國際競爭重點領域,加強頂層設計,集中產學研多方資源,發揮機器化學家的賦能作用。由產業部門提供化學應用領域的大量數據和應用場景,高校和科研機構提出相應科學問題,并提供智力資源,產學研各方共同助力化學重點領域的技術研發與應用。
本文鏈接:讓“機器化學家”更好賦能化學研究http://m.lensthegame.com/show-2-10674-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 《管理辦法》五月一日起施行——個人信息保護合規治理邁出實質性一步
下一篇: 基于系統觀推進中國式科技創新