馬斯克開源3140億參數的Grok,大模型爭相開源所為何求?
作者:劉曉潔
特斯拉CEO埃隆?馬斯克(Elon Musk)給大模型領域投下一枚重磅炸彈。
北京時間3月18日凌晨,馬斯克旗下大模型公司 xAI 在官網宣布開源 3140 億參數的大模型Grok-1,以及該模型的權重和網絡架構。
這是目前為止參數量最大的開源模型,此前開源大模型中影響力較大的是 Meta開源的Llama 2,有700億參數。在GitHub頁面中,官方提示,由于Grok模型規模較大,需要有足夠GPU和內存的機器才能運行。
開源大模型生態社區OpenCSG的創始人陳冉認為,在馬斯克開源前,大家還在討論開源好,還是閉源好,“馬斯克開源的意義很大,說明AI 2.0,也就是大模型的大趨勢就是以開源為主的漸進創新方式。”對于企業和個人來說,在 Llama、Gemma和Mistral這些開源大模型外,也會有更多選擇。
大模型廠商紛紛開源
據xAI官方發布公告介紹,Grok-1是一個由xAI從頭開始訓練的混合專家(MoE)模型,目前開源的是其2023年10月的原始基礎模態,沒有針對任何任務進行微調,意味著這個模型目前還沒有針對任何應用開發。
xAI 提到遵守 Apache 2.0 許可證來開源 Grok-1 的權重和架構,而Apache 2.0 許可證允許用戶自由地使用、修改和分發軟件,無論是個人還是商業用途。
馬斯克一直是開源的支持者,對OpenAI閉源的商業路線有所不滿。幾周前,馬斯克向法院提起訴訟,以違反合同為由起訴OpenAI及其CEO奧爾特曼(Sam Altman),要求該公司恢復開源。馬斯克在訴訟中表示, OpenAI違背了公司成立時達成的一項協議,即開發技術以造福人類而不是利潤。OpenAI與科技巨頭微軟的關系損害了該公司最初致力于公共、開源的通用人工智能(AGI)的目標。
馬斯克在2023年創立大模型公司xAI,他曾表示,創立xAI就是為阻止人工智能領域出現“一家獨大”的局面。隨后,xAI推出大語言模型Grok。
此次Grok開源后,ChatGPT官方賬號也現身評論區,馬斯克正面開“懟”回復稱:告訴我們更多關于OpenAI “開放”的部分(Tell us more about the “Open” part of OpenAI)。
和OpenAI為代表的閉源路線相反的是,開源成為不少大模型廠商選擇的方向。同樣在3月18日,國內創企潞晨科技的Colossal-AI團隊宣布,全面開源Open-Sora模型參數和所有訓練細節。Open-Sora是一個類Sora架構視頻生成模型,模型采用了目前火熱的Diffusion Transformer(DiT)架構。
公開資料顯示,Open-Sora背后的公司潞晨科技創立于2021年7月,創始人尤洋是加州伯克利大學博士、新加坡國立大學計算機系的校長青年教授。
潞晨科技在其今日的官方發文中提到了團隊用低成本方法復現Sora的路徑。在復現流程中,團隊共使用了64塊H800進行訓練。第二階段的訓練量一共是 2808 GPU hours,約合7000美元,第三階段的訓練量是1920 GPU hours,大約4500美元,成功把Open-Sora復現流程控制在了1萬美元左右。
具體技術細節上,官方提到,為了進一步降低Sora復現的門檻和復雜度,Colossal-AI團隊在代碼倉庫中提供了便捷的視頻數據預處理腳本,可以輕松啟動Sora復現預訓練,包括公開視頻數據集下載,長視頻根據鏡頭連續性分割為短視頻片段,使用開源大語言模型LLaVA生成精細的提示詞。團隊提供的批量視頻標題生成代碼可以用兩卡 3 秒標注一個視頻,并且質量接近于 GPT-4V。最終得到的視頻/文本對可直接用于訓練。
開源所為何求?
無論是國內還是海外,大模型開源都已經成為一大趨勢。對于大模型廠商開源的動力,陳冉對第一財經表示,“主要是招攬客戶,做影響力。”
陳冉比喻道,大模型的這個打法就像互聯網時代移動應用的市場模式,“免費試用一段時間,后面有企業包裝后的功能或者服務,這個東西也相當于汽車里的發動機,直接用不起來,需要包裝成整車(企業功能)。”
2023年 7月,Meta公布開源最新大模型Llama 2,包含70 億、130 億和 700 億三種參數類型,并宣布可免費用于商業或者研究。彼時Meta公開表示 ,開放的方法是當今人工智能模型開發的正確方法,特別是在技術快速發展的生成領域。通過公開提供人工智能模型,它們可以使每個人受益。
而最近一次影響力較大的開源是谷歌,其在2月22日宣布推出開源模型系列Gemma,包含Gemma 2B 和 Gemma 7B,模型權重也一并開源,且允許商用。
倒回半年多以前,2023年5月,一份谷歌的內部文件曾在網上傳開并引發討論。這份內部文件認為,開源大模型迅猛發展,正在侵蝕OpenAI和谷歌的陣地。除非改變閉源的立場,否則開源替代品將最終使這兩家公司黯然失色。
“雖然我們的模型在質量方面仍略占優勢,但(閉源和開源模型)的差距正在以驚人的速度縮小。”文件寫道。外媒確認了內部文件的真實性,這篇文章的原作者是谷歌高級軟件工程師Luke Sernau。
開源模式的迭代進步速度已經威脅到了部分閉源模型的生存。文件表示,開源大模型的很多創新,都是源于Meta LLaMA模型的泄露,但Meta又成為這一進程中一個明顯的贏家――他們相當于獲得了整個星球的免費勞動力,“擁有生態系統的價值怎么強調都不為過。”
“開源的最終目的是變現,做出商業模式。”陳冉認為,大模型領域的開源趨勢會促進和推動行業在上面的商業化,快速迭代、快速試錯、共創共擔,對于這個生態只有好處,沒有什么不利,“開源只會越來越澎湃向上,不會走向閉源。”
在Llama 2開源時,Meta CEO馬克?扎克伯格曾為其站臺,稱Llama 2為大模型的“次世代”產品,他表示,開源推動了創新,因為它讓更多的開發者能夠使用新技術。同時,軟件開源意味著更多的人可以審查它,識別并修復可能存在的問題,從而提高了安全性,“我相信如果生態系統更加開放,將會釋放更多的進步,這就是我們開源Llama 2的原因。”
不過,在開源的同時,廠商們也并未完全放棄閉源路線。來自法國的Mistral AI最初是開源起家,其開源的Mistral 7B一度被稱為最好的 7B 模型,這家初創公司也被譽為“歐洲的OpenAI ”,但就在前不久,Mistral AI發布了最強的旗艦模型 Mistral Large,性能對標 GPT-4,卻沒有選擇開源,其CEO 阿瑟?門斯(Arthur Mensch)公開表示,未來他們依然會堅持開源理念,但是同時也會推出性能最為強大的閉源模型參與商業競爭。
此次,馬斯克開源了目前最大參數量的Grok,再次攪動大模型領域的戰爭。閉源還是開源路線勝?猶未可知。對于科技圈而言,正如OpenAI CEO奧爾特曼在3月18日凌晨的推文所述,“這是人類歷史上最有趣的一年,除未來所有年份以外。”
本文鏈接:馬斯克開源3140億參數的Grok,大模型爭相開源所為何求?http://m.lensthegame.com/show-2-3997-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任,僅提供存儲服務。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。