拆解谷歌Gemini ：能力可與GPT-4“掰手腕” 目前可免費使用

2023-12-17 22:20:05 來源：

觀看：336

　　拆解谷歌Gemini ：能力可與GPT-4“掰手腕” 目前可免費使用

　　經濟觀察網記者錢玉娟

　　12月6日深夜，在沒有任何預告下，Google(谷歌)推出了“迄今為止，功能最強大、最通用的人工智能大語言模型”Gemini(雙子星)。

　　谷歌官方表示，Gemini經過了當前LLM(大型語言模型)領域中廣泛使用的32個基準測試，在其中大部分基準測試中，表現出了“最先進的性能”，不僅擊敗了OpenAI的GPT-4，甚至在MMLU(大規模多任務語言理解)基準測試中，成為第一個超越人類專家的模型。

　　“這是人工智能模型的巨大飛躍，最終將影響幾乎所有的Google產品。”谷歌CEO Sundar Pichai(桑達爾?皮查伊)與DeepMind CEO Demis Hassabis(德米斯?哈薩比斯)聯名表示。

　　多模態、多語言、免費

　　谷歌最早對外公布這一被命名為“Gemini”的模型開發計劃是在今年5月舉行的I/O(Innovation in the Open，開放中創新)開發者大會上。

　　彼時皮查伊表示，正在訓練中的Gemini表現出了此前所有模型未曾具備的多模態能力，并且這一模型將有不同尺寸和功能應用場景的設計。

　　實際上，Gemini是由Google DeepMind開發出的原生多模態模型，該項目需溯源至今年4月20日。那天，谷歌選擇將Google Brain與DeepMind合并，成立了Google DeepMind，并宣布將公司在AI領域的世界級人才、計算能力及基礎設施等資源加以結合，創新研發大模型以對標OpenAI的GPT-4。

　　今年6月以來，哈薩比斯也不止一次對外提及Gemini系統的強大，例如“將比ChatGPT背后的系統更強大”“正在開發Gemini系統來迎接下一個時代”“Gemini是Google的下一代多模態大模型”等。

　　當然，讓外界對Gemini關注度持續升高、好奇心拉滿，還有一個細節。今年7月，辭職已有四年的谷歌聯合創始人Sergey Brin(謝爾蓋?布林)重返谷歌，有消息稱其回歸便是要協助開發Gemini系統。

　　一位在國內專注AI大模型方向的算法工程師對記者表示，在7月時他就預感“Gemini將會是下半年大模型賽道的焦點。”

　　Gemini共有Ultra、Pro和Nano三個版本，分別適用于不同場景，其中Ultra版可用于大型數據中心等，屬于處理高復雜度任務的模型；Pro版則用于各種擴展任務，屬于日常使用模型，且已搭載于谷歌的對話機器人Bard中；Nano版則是應用于智能手機等移動設備終端上的模型。

　　在谷歌給出的長達60頁的Gemini技術報告中，上述算法工程師認為其中值得關注的是，Gemini模型的訓練數據集既多模態又多語言。其中，前期訓練數據集使用來自網絡文檔、書籍和代碼的數據，包括圖像、音頻和視頻數據等。

　　“Google拿自家海量云存儲的圖片進行了預訓練，確實把模型的多模態能力拉升了一大截。”這位算法工程師還看到，谷歌在Gemini技術報告中如此寫到，“當模型多模態能力被真正探索出來時，會提供更多細節。”

　　12月7日上午，上述算法工程師體驗了實際搭載Gemini Pro的Bard，并就多模態能力方面，對Gemini與GPT-4進行了對比測試。

　　通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識，綜合對比，他發現，Gemini Pro的多模態能力確實足以抗衡GPT-4，前者的響應速度也“快很多”，另外，前者可以免費使用，但后者已經有了“3小時40次的限制”。

　　能力可與GPT-4“掰手腕”

　　將Gemini的技術報告看完后，國內一位曾在谷歌工作過的AI企業創始人對記者稱，最令其驚訝的是光報告的作者就多達9頁，“每頁90人，八百余人，超過OpenAI公司的總人數。”

　　需要提及的是，OpenAI員工總數目前不足800人，這也不難看出谷歌在Gemini模型開發與技術創新方面投入的AI人才之多。

　　“我對Gemini的期盼，是它可以和GPT-4去‘掰手腕’。”這位算法工程師實際使用對比后的感受是，Gemini達到了上述目的，但這是否表明其已經對GPT-4形成了“全面超越”？

　　他肯定了Gemini的多模態能力，但他繼而指出，Gemini在中文識別理解能力上，相較GPT-4略遜一籌。這也進一步印證了科技媒體The Information早前報道中所指出的“Gemini仍無法可靠處理‘非英語’的任務。”

　　據悉，在文本分析上，Gemini是通過大模型思維鏈(Chain of Thought)技術原理提升效果，在上述算法工程師看來，若實際比拼，“Gemini比不過GPT-4”，畢竟谷歌專門針對測試相關領域進行了優化，Gemini只在上述領域中的指標表現好，并不能夠說明模型真正的泛化能力強，“至于真正能力，需要在更多的數據集上進行測評。”

　　談及Gemini的強大之處，一AI企業的基礎科研負責人向經濟觀察網記者分析，“在于首次驗證了原生多模態訓練的范式是能走通的。”在他看來，原生多模態訓練范式的上限極高，且容易擴展到視頻格式，“我們很看好這條技術路線。”

　　上述AI企業基礎科研負責人認為，谷歌產品線積累的海量高質量多模態數據，能夠為后續Gemini的迭代提供有力支持。

　　事實上，Gemini的技術報告中也有這樣一段表述，“谷歌發現數據質量對于高性能模型至關重要，并認為在尋找預訓練的最佳數據集分布方面，仍有許多有趣的問題。”

　　為拓展多模態模型的訓練數據集，谷歌還對外表示，Bard將在超過 170 個國家和地區提供 Gemini Pro 版本服務，并計劃未來擴展到不同的模態，支持更多語言和地區。不僅明年初將推出升級的Bard Advanced版本，在接下來的幾個月里，谷歌還將陸續把Gemini應用于搜索、廣告、Chrome等更多的產品和服務中。

本文鏈接：拆解谷歌Gemini ：能力可與GPT-4“掰手腕” 目前可免費使用http://m.lensthegame.com/show-2-2120-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任，僅提供存儲服務。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：我國成功發射遙感三十九號衛星

下一篇：未來新能源：新型納米裝置可利用海水“隱藏能量”！

拆解谷歌Gemini ：能力可與GPT-4“掰手腕” 目前可免費使用

熱門資訊

推薦資訊

科技最熱文章