據美國科學促進會旗下網站11月19日報道,美國普林斯頓大學和斯坦福大學團隊開發出一種新壓縮算法CALDERA,能精簡大型語言模型(LLM)的海量數據,為LLM“瘦身”。這項算法不僅有助保護數據隱私、節約能源、降低成本,還能推動LLM在手機和筆記本電腦上高效使用。
團隊舉例稱,當人們使用ChatGPT時,請求會被發送到OpenAI公司的后端服務器進行處理。這一過程不僅成本高昂、能耗巨大,通常還很慢。如果用戶想要使用消費級圖形處理單元運行LLM,就需要對這些LLM進行壓縮。
CALDERA算法通過減少LLM冗余并降低信息層的精度來發揮作用。“瘦身”后的LLM更加精簡,可在手機或筆記本電腦等設備上存儲和訪問,同時提供了與未壓縮版本幾乎一樣準確而微妙的性能。
雖然CALDERA并非首個壓縮LLM的算法,但其獨特之處在于兼具“低精度”和“低排序”兩種特性。其中,“低精度”減少了比特數,加快了數據存儲和處理速度。而“低排序”則降低了LLM數據中的冗余。
團隊表示,使用CALDERA壓縮的LLM可能適用于那些對精度要求不是最高的場景。此外,用戶可在智能手機或筆記本電腦等設備上對壓縮后的LLM進行微調,這使其能根據特定需求調整模型來增強隱私,而無需與第三方共享敏感數據。
不過團隊也提醒道,在智能手機或筆記本電腦上運行LLM,可能會占用設備內存。
據美國科學促進會旗下網站11月19日報道,美國普林斯頓大學和斯坦福大學團隊開發出一種新壓縮算法CALDERA,能精簡大型語言模型(LLM)的海量數據,為LLM“瘦身”。這項算法不僅有助保護數據隱私、節約能源、降低成本,還能推動LLM在手機和筆記本電腦上高效使用。
團隊舉例稱,當人們使用ChatGPT時,請求會被發送到OpenAI公司的后端服務器進行處理。這一過程不僅成本高昂、能耗巨大,通常還很慢。如果用戶想要使用消費級圖形處理單元運行LLM,就需要對這些LLM進行壓縮。
CALDERA算法通過減少LLM冗余并降低信息層的精度來發揮作用。“瘦身”后的LLM更加精簡,可在手機或筆記本電腦等設備上存儲和訪問,同時提供了與未壓縮版本幾乎一樣準確而微妙的性能。
雖然CALDERA并非首個壓縮LLM的算法,但其獨特之處在于兼具“低精度”和“低排序”兩種特性。其中,“低精度”減少了比特數,加快了數據存儲和處理速度。而“低排序”則降低了LLM數據中的冗余。
團隊表示,使用CALDERA壓縮的LLM可能適用于那些對精度要求不是最高的場景。此外,用戶可在智能手機或筆記本電腦等設備上對壓縮后的LLM進行微調,這使其能根據特定需求調整模型來增強隱私,而無需與第三方共享敏感數據。
不過團隊也提醒道,在智能手機或筆記本電腦上運行LLM,可能會占用設備內存。
本文鏈接:壓縮算法為大語言模型“瘦身”http://m.lensthegame.com/show-2-9427-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。