拆解谷歌Gemini :能力可與GPT-4“掰手腕” 目前可免費使用
經濟觀察網 記者 錢玉娟
12月6日深夜,在沒有任何預告下,Google(谷歌)推出了“迄今為止,功能最強大、最通用的人工智能大語言模型”Gemini(雙子星)。
谷歌官方表示,Gemini經過了當前LLM(大型語言模型)領域中廣泛使用的32個基準測試,在其中大部分基準測試中,表現出了“最先進的性能”,不僅擊敗了OpenAI的GPT-4,甚至在MMLU(大規模多任務語言理解)基準測試中,成為第一個超越人類專家的模型。
“這是人工智能模型的巨大飛躍,最終將影響幾乎所有的Google產品。”谷歌CEO Sundar Pichai(桑達爾?皮查伊)與DeepMind CEO Demis Hassabis(德米斯?哈薩比斯)聯名表示。
多模態、多語言、免費
谷歌最早對外公布這一被命名為“Gemini”的模型開發計劃是在今年5月舉行的I/O(Innovation in the Open,開放中創新)開發者大會上。
彼時皮查伊表示,正在訓練中的Gemini表現出了此前所有模型未曾具備的多模態能力,并且這一模型將有不同尺寸和功能應用場景的設計。
實際上,Gemini是由Google DeepMind開發出的原生多模態模型,該項目需溯源至今年4月20日。那天,谷歌選擇將Google Brain與DeepMind合并,成立了Google DeepMind,并宣布將公司在AI領域的世界級人才、計算能力及基礎設施等資源加以結合,創新研發大模型以對標OpenAI的GPT-4。
今年6月以來,哈薩比斯也不止一次對外提及Gemini系統的強大,例如“將比ChatGPT背后的系統更強大”“正在開發Gemini系統來迎接下一個時代”“Gemini是Google的下一代多模態大模型”等。
當然,讓外界對Gemini關注度持續升高、好奇心拉滿,還有一個細節。今年7月,辭職已有四年的谷歌聯合創始人Sergey Brin(謝爾蓋?布林)重返谷歌,有消息稱其回歸便是要協助開發Gemini系統。
一位在國內專注AI大模型方向的算法工程師對記者表示,在7月時他就預感“Gemini將會是下半年大模型賽道的焦點。”
Gemini共有Ultra、Pro和Nano三個版本,分別適用于不同場景,其中Ultra版可用于大型數據中心等,屬于處理高復雜度任務的模型;Pro版則用于各種擴展任務,屬于日常使用模型,且已搭載于谷歌的對話機器人Bard中;Nano版則是應用于智能手機等移動設備終端上的模型。
在谷歌給出的長達60頁的Gemini技術報告中,上述算法工程師認為其中值得關注的是,Gemini模型的訓練數據集既多模態又多語言。其中,前期訓練數據集使用來自網絡文檔、書籍和代碼的數據,包括圖像、音頻和視頻數據等。
“Google拿自家海量云存儲的圖片進行了預訓練,確實把模型的多模態能力拉升了一大截。”這位算法工程師還看到,谷歌在Gemini技術報告中如此寫到,“當模型多模態能力被真正探索出來時,會提供更多細節。”
12月7日上午,上述算法工程師體驗了實際搭載Gemini Pro的Bard,并就多模態能力方面,對Gemini與GPT-4進行了對比測試。
通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識,綜合對比,他發現,Gemini Pro的多模態能力確實足以抗衡GPT-4,前者的響應速度也“快很多”,另外,前者可以免費使用,但后者已經有了“3小時40次的限制”。
能力可與GPT-4“掰手腕”
將Gemini的技術報告看完后,國內一位曾在谷歌工作過的AI企業創始人對記者稱,最令其驚訝的是光報告的作者就多達9頁,“每頁90人,八百余人,超過OpenAI公司的總人數。”
需要提及的是,OpenAI員工總數目前不足800人,這也不難看出谷歌在Gemini模型開發與技術創新方面投入的AI人才之多。
“我對Gemini的期盼,是它可以和GPT-4去‘掰手腕’。”這位算法工程師實際使用對比后的感受是,Gemini達到了上述目的,但這是否表明其已經對GPT-4形成了“全面超越”?
他肯定了Gemini的多模態能力,但他繼而指出,Gemini在中文識別理解能力上,相較GPT-4略遜一籌。這也進一步印證了科技媒體The Information早前報道中所指出的“Gemini仍無法可靠處理‘非英語’的任務。”
據悉,在文本分析上,Gemini是通過大模型思維鏈(Chain of Thought)技術原理提升效果,在上述算法工程師看來,若實際比拼,“Gemini比不過GPT-4”,畢竟谷歌專門針對測試相關領域進行了優化,Gemini只在上述領域中的指標表現好,并不能夠說明模型真正的泛化能力強,“至于真正能力,需要在更多的數據集上進行測評。”
談及Gemini的強大之處,一AI企業的基礎科研負責人向經濟觀察網記者分析,“在于首次驗證了原生多模態訓練的范式是能走通的。”在他看來,原生多模態訓練范式的上限極高,且容易擴展到視頻格式,“我們很看好這條技術路線。”
上述AI企業基礎科研負責人認為,谷歌產品線積累的海量高質量多模態數據,能夠為后續Gemini的迭代提供有力支持。
事實上,Gemini的技術報告中也有這樣一段表述,“谷歌發現數據質量對于高性能模型至關重要,并認為在尋找預訓練的最佳數據集分布方面,仍有許多有趣的問題。”
為拓展多模態模型的訓練數據集,谷歌還對外表示,Bard將在超過 170 個國家和地區提供 Gemini Pro 版本服務,并計劃未來擴展到不同的模態,支持更多語言和地區。不僅明年初將推出升級的Bard Advanced版本,在接下來的幾個月里,谷歌還將陸續把Gemini應用于搜索、廣告、Chrome等更多的產品和服務中。
本文鏈接:拆解谷歌Gemini :能力可與GPT-4“掰手腕” 目前可免費使用http://m.lensthegame.com/show-2-2120-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 我國成功發射遙感三十九號衛星