聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉載發布。
扎克伯格:有了 Llama3,全世界就能擁有最智能的 AI。
ChatGPT 拉開了大模型競賽的序幕,Meta 似乎要后來居上了。
本周四,AI 領域迎來重大消息,Meta 正式發布了人們等待已久的開源大模型 Llama3。
扎克伯格在 Facebook 上發帖:Big AI news today.
與此同時,扎克伯格宣布:基于最新的 Llama3模型,Meta 的 AI 助手現在已經覆蓋 Instagram、WhatsApp、Facebook 等全系應用,并單獨開啟了網站。另外還有一個圖像生成器,可根據自然語言提示詞生成圖片。
Meta AI 網址:https://www.meta.ai/
同日,亞馬遜云科技也宣布,Meta Llama3基礎模型已可通過 Amazon SageMaker JumpStart來部署和推理運行。亞馬遜云科技官方博客詳細介紹了如何在 SageMaker Studio 中使用 Llama3模型(見文后鏈接),感興趣的讀者可以詳細了解。
扎克伯格表示,Meta 提供的生成式 AI 能力在免費產品中性能是最強大的。
在 Facebook、Instagram、WhatsApp 和 Messenger 上,用戶現在可以借助 Meta AI 進行搜索,無需在應用程序之間切
當你瀏覽信息流的時候,還可以直接從帖子中向 Meta AI 詢問更多信息。
圖像生成器帶來的玩法更加有趣,Imagine 功能帶來了從文本實時創建圖像。這一功能的測試版從今天開始在美國的 WhatsApp 和 Meta AI 網絡體驗上推出。
開始打字時,你會看到一個圖像出現,每多輸入幾個字母,圖像都會發生變化。
Meta 表示,Llama3在多個關鍵的基準測試中性能優于業界先進同類模型,其在代碼生成等任務上實現了全面領先,能夠進行復雜的推理,可以更遵循指令,能夠可視化想法并解決很多微妙的問題。
簡而言之,Llama3的主要亮點包括:
基于超過15T token 訓練,相當于 Llama2數據集的7倍還多;
支持8K 長文本,改進的 tokenizer 具有128K token 的詞匯量,可實現更好的性能;
在大量重要基準中均具有最先進性能;
新能力范疇,包括增強的推理和代碼能力;
訓練效率比 Llama2高3倍;
帶有 Llama Guard2、Code Shield 和 CyberSec Eval2的新版信任和安全工具。
剛剛發布的8B 和70B 版本 Llama3模型已用于 Meta AI 助手,同時也面向開發者進行了開源,包括預訓練和微調版本:
下載鏈接:https://llama.meta.com/llama-downloads/
Github:https://github.com/meta-llama/
體量更大的多模態版本將在未來幾個月內推出。Meta 稱,目前正在開發的最大模型是400B+ 參數。
Meta 研究科學家 Aston Zhang 在大模型發布后表示,在 Llama3的研發過程中,研究團隊一起應對了預訓練和人類數據、預訓練擴展、長上下文、后訓練和評估方面的諸多挑戰。這是一段艱難而又激動人心的旅程。
更加激動人心的內容即將到來:Meta 的研究者現在準備推出系列視頻,幫助人們深入了解 Llama3背后的技術。此外 Llama3的相關研究論文也將放出。
Llama3,性能重回王座
最新發布的8B 和70B 參數的 Llama3模型可以說是 Llama2的重大飛躍,由于預訓練和后訓練(Post-training)的改進,本次發布的預訓練和指令微調模型是當今8B 和70B 參數規模中的最佳模型。與此同時,后訓練過程的改進大大降低了模型出錯率,進一步改善了一致性,并增加了模型響應的多樣性。
Llama3將數據和規模提升到新的高度。Meta 表示,Llama3是在兩個定制的24K GPU 集群上、基于超過15T token 的數據上進行了訓練 —— 相當于 Llama2數據集的7倍還多,代碼數據相當于 Llama2的4倍。從而產生了迄今為止最強大的 Llama 模型,Llama3支持8K 上下文長度,是 Llama2容量的兩倍。
此外,Meta 還開發了一套新的高質量人類評估數據集。該評估集包含1800個提示,涵蓋12個關鍵用例:尋求建議、頭腦風暴、分類、封閉式問答、編碼、創意寫作、提取、塑造角色、開放式問答、推理、重寫和總結。為了防止 Llama3在此評估集上出現過度擬合,Meta 表示他們自己的團隊也無法訪問該數據集。下圖顯示了針對 Claude Sonnet、Mistral Medium 和 GPT-3.5對這些類別和提示進行人工評估的匯總結果。
下圖是 Llama3預訓練模型和其他同等規模模型的比較,前者表現出 SOTA 水平。
為了開發出出色的語言模型,Meta 認為創新、擴展和優化是非常重要的。因而在 Llama3的研發中 Meta 采用了這一設計理念,重點關注四個關鍵要素:模型架構、預訓練數據、擴展預訓練和指令微調。
模型架構
Llama3選擇了相對標準的純解碼器 Transformer 架構。與 Llama2相比,Llama3做了幾個關鍵的改進,包括:
Llama3使用具有128K token 詞匯表的 tokenizer,可以更有效地對語言進行編碼,從而顯著提高模型性能;
為了提高 Llama3模型的推理效率,研究團隊在8B 和70B 大小的模型上采用了分組查詢注意力 (GQA);
在8192個 token 的序列上訓練模型,使用掩碼確保自注意力不會跨越文檔邊界。
訓練數據
為了訓練最好的語言模型,管理大型、高質量的訓練數據集至關重要。Meta 在預訓練數據上投入了大量成本。Llama3使用超過15T 的 token 進行了預訓練,這些 token 都是從公開來源收集的??傮w上講,Llama3的訓練數據集是 Llama2使用的數據集的七倍多,并且包含四倍多的代碼。為了為即將到來的多語言用例做好準備,超過5% 的 Llama3預訓練數據集由涵蓋30多種語言的高質量非英語數據組成。但是,Llama3在這些語言上的性能水平預計不會與英語相同。
為了確保 Llama3接受最高質量數據的訓練,研究團隊開發了一系列數據過濾 pipeline,包括使用啟發式過濾器(filter)、NSFW 過濾器、語義重復數據刪除方法和文本分類器來預測數據質量。
研究團隊發現前幾代 Llama 非常擅長識別高質量數據,因此 Meta 使用 Llama2為給 Llama3提供支持的文本質量分類器生成訓練數據。
研究團隊還進行了廣泛的實驗,以評估出在最終預訓練數據集中不同來源數據的最佳混合方式,最終確保 Llama3在各種用例(包括日常問題、STEM、編碼、歷史知識等)中表現良好。
擴展預訓練
為了有效利用 Llama3模型的預訓練數據,Meta 投入了大量精力來擴展預訓練。
具體來說,Meta 為下游基準評估制定了一系列詳細的擴展法則。這些擴展法則使 Meta 能夠選擇最佳的數據組合,并就如何最好地使用訓練計算做出明智的決策。
重要的是,擴展法則使 Meta 能夠在實際訓練模型之前預測最大模型在關鍵任務上的性能(例如,在 HumanEval 基準上評估的代碼生成性能)。這有助于確保最終模型在各種用例和功能上都具有強大的性能。
在 Llama3的開發過程中,Meta 對擴展行為進行了一些新的觀察。例如,雖然8B 參數模型的 Chinchilla 最佳訓練計算量對應約200B token,但 Meta 發現即使在模型接受了兩個數量級以上的數據訓練之后,模型性能仍在繼續提高。
在對多達15T token 進行訓練后,8B 和70B 參數的模型都繼續以對數線性的方式提升性能。較大的模型可以用較少的訓練計算來匹配較小模型的性能,但較小的模型通常是首選,因為它們在推理過程中效率更高。
Meta 透露,它們使用自定義訓練庫、Meta 的超級集群和生產集群預訓練 Llama3。微調、注釋和評估在第三方云計算上進行。
預訓練是在 H100-80GB 類型的硬件(TDP 為700W)上累計770萬個 GPU 小時的計算。
為了訓練最大的 Llama3模型,Meta 結合了三種類型的并行化:數據并行化、模型并行化和管道并行化。
當同時在16K GPU 上進行訓練時,Meta 最高可實現每個 GPU 超過400TFLOPS 的計算利用率。Llama3是在兩個定制的24K GPU 集群上進行了訓練。為了最大限度地延長 GPU 的正常運行時間,Meta 開發了一種先進的新訓練堆棧,可以自動執行錯誤檢測、處理和維護。Meta 還極大地改進了硬件可靠性和靜默數據損壞檢測機制,并且開發了新的可擴展存儲系統,以減少檢查點和回滾的開銷。
這些改進使總體有效訓練時間超過95%。
綜合起來,這些改進使 Llama3的訓練效率比 Llama2提高了約三倍。
指令微調
為了充分釋放預訓練模型在聊天場景中的潛力,Meta 還對指令微調方法進行了創新。Llama3后訓練方法用的是有監督微調(SFT)、拒絕采樣、近端策略優化(PPO)和直接策略優化(DPO)的組合。SFT 中使用的 prompt 質量以及 PPO 和 DPO 中使用的偏好排序對模型對齊有著巨大的影響。
此次模型質量的最大改進,來自于仔細整理數據以及對人類注釋者提供的注釋進行多輪質量保證。
通過 PPO 和 DPO 從偏好排序中學習,也極大地提高了 Llama3在推理和編碼任務上的性能。Meta 發現,如果你向模型提出一個它難以回答的推理問題,該模型有時會產生正確的推理軌跡:模型知道如何產生正確的答案,但不知道如何選擇它。對偏好排序的訓練使模型能夠學習如何選擇正確答案。
使用 Llama3
在此版本中,Meta 提供了新的信任與安全工具,包括 Llama Guard2和 Cybersec Eval2的更新組件,并引入了 Code Shield—— 一種過濾大模型生成的不安全代碼的防護欄。
Meta 還用 torchtune 開發了 Llama3。torchtune 是新的 PyTorch 原生庫,可以輕松地使用 LLM 進行創作、微調和實驗。
torchtune 提供完全用 PyTorch 編寫的內存高效且可破解的訓練方法。該庫與 Hugging Face、Weights & Biases 和 EleutherAI 等知名平臺集成,甚至支持 Executorch,以便在各種移動和邊緣設備上運行高效推理。
從快速工程到將 Llama3與 LangChain 結合使用,Meta 提供了全面的入門指南,指導開發者進行大規模部署。
安全改進
Meta 采用了一種新的、系統級的方法來負責任地開發和部署 Llama,將 Llama 模型視為更廣泛系統的一部分,讓開發者掌握主導權。Llama 模型將作為系統的基礎部分,由開發人員根據其獨特的最終目標進行設計。
指令微調在確保模型安全性方面也發揮了重要作用。經過內部和外部的共同努力,Meta 對經過指令微調的模型進行了安全紅隊(測試)。
紅隊方法利用人類專家和自動化方法生成對抗性提示,試圖誘發有問題的反應。例如,采用綜合測試來評估與化學、生物、網絡安全和其他風險領域有關的濫用風險。所有這些工作都是反復進行的,并用于對發布的模型進行安全微調。
Llama Guard 模型旨在為及時響應安全奠定基礎,并可根據應用需求輕松微調以創建新的分類標準。作為起點,新版 Llama Guard2采用了最近公布的 MLCommons 分類標準。此外,CyberSecEval2在其前身的基礎上進行了擴展,增加了對 LLM 允許濫用其代碼解釋器的傾向、攻擊性網絡安全能力以及對提示注入攻擊的易感性的測量。最后,Meta 將推出代碼盾(Code Shield),它增加了對 LLM 生成的不安全代碼進行推理時過濾的支持。這可以降低不安全代碼建議、代碼解釋器濫用預防和安全命令執行方面的風險。
隨著生成式人工智能領域的快速發展,開源將是將生態系統整合在一起并減少這些潛在危害的重要途徑。
為此,Meta 持續更新《負責任使用指南》(RUG),該指南為負責任地使用 LLM 進行開發提供了全面指導。比如像指南中所概述的那樣,所有輸入和輸出都應根據適合應用的內容指南進行檢查和過濾。此外,許多云服務提供商都提供了用于負責任部署的內容審核 API 和其他工具,開發人員也被建議考慮使用這些選項。
大規模部署 Llama3
Llama3即將在所有主要平臺上推出,包括云提供商、模型 API 提供商等。
基準測試表明,tokenizer 提高了 token 化效率,與 Llama2相比,token 生成量最多可減少15%。此外,組查詢關注(GQA)現在也被添加到了 Llama38B。
因此,盡管與 Llama27B 相比,該模型多了1B 個參數,但 tokenizer 效率和 GQA 的改進有助于保持與 Llama27B 相當的推理效率。
在 Llama Recipes(https://github.com/meta-llama/llama-recipes)中,介紹了有關如何利用所有這些功能的示例,其中包含所有的開放源代碼,可用于從微調、部署到模型評估的所有工作。
下一步是什么?
8B 和70B 兩個型號的模型,標志著 Llama3系列的開端,下一步還會有更多。
Meta 表示, 最大的 Llama3參數超過400B,雖然這些機型仍在訓練中,但在接下來的幾個月中也將陸續發布,新功能包括多模態、多語言對話能力、更長的上下文窗口以及更強的整體能力。
一旦完成 Llama3的訓練,Meta 還將發表一篇詳細的研究論文。
Llama3還未到來的400B+ 版本會有多強?它一旦發布是不是意味著開源社區就將迎來 GPT-4級大模型?
Jim Fan 整理的 Llama3400B 與 GPT-4等模型的比分。
也許只有 OpenAI 的 GPT-5才能壓下開源模型了。
參考內容:
https://llama.meta.com/llama3/
https://www.facebook.com/4/videos/377361005296904/
https://www.reuters.com/technology/meta-releases-early-versions-its-llama-3-ai-model-2024-04-18/
https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival
亞馬遜云科技博客:https://aws.amazon.com/cn/blogs/machine-learning/meta-llama-3-models-are-now-available-in-amazon-sagemaker-jumpstart/
本文鏈接:開源大模型Llama 3王者歸來!最大底牌4000億參數,性能直逼GPT-4_開源modhttp://m.lensthegame.com/show-3-17063-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。