設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練

          2024-02-12 22:20:18 來源:

          聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權轉載發布。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          效果更穩定,實現更簡單。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          大型語言模型(LLM)的成功離不開基于人類反饋的強化學習(RLHF)。RLHF 可以大致可以分為兩個階段,首先,給定一對偏好和不偏好的行為,訓練一個獎勵模型,通過分類目標為前者分配更高的分數。然后通過某種強化學習算法優化這個獎勵函數。然而,獎勵模型的關鍵要素可能會產生一些不良影響。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          來自卡內基梅隆大學(CMU)和 Google Research 的研究者聯合提出了一種簡單的、理論上嚴格的、實驗上有效的 RLHF 新方法 —— 自我博弈偏好優化(Self-Play Preference Optimization,SPO)。該方法消除了獎勵模型,并且不需要對抗性訓練。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文:A Minimaximalist Approach to Reinforcement Learning from Human FeedbackVbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          論文地址:https://arxiv.org/abs/2401.04056VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          方法簡介VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          SPO 方法主要包括兩個方面。首先,該研究通過將 RLHF 構建為兩者零和博弈(zero-sum game),真正消除了獎勵模型,從而更有能力處理實踐中經常出現的噪聲、非馬爾可夫偏好。其次,通過利用博弈的對稱性,該研究證明可以簡單地以自我博弈的方式訓練單個智能體,從而消除了不穩定對抗訓練的需要。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實際上,這相當于從智能體中采樣多個軌跡,要求評估者或偏好模型比較每對軌跡,并將獎勵設置為軌跡的獲勝率。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          SPO 避免了獎勵建模、復合 error 和對抗性訓練。通過從社會選擇理論(social choice theory)中建立最小最大獲勝者的概念,該研究將 RLHF 構建為兩者零和博弈,并利用該博弈支付矩陣的對稱性來證明可以簡單地訓練單個智能體來對抗其自身。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究還分析了 SPO 的收斂特性,并證明在潛在獎勵函數確實存在的情況下,SPO 能以與標準方法相媲美的快速速度收斂到最優策略。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          實驗VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究在一系列具有現實偏好函數的連續控制任務上,證明了 SPO 比基于獎勵模型的方法性能更好。SPO 在各種偏好設置中能夠比基于獎勵模型的方法更有效地學習樣本,如下圖2所示。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          該研究從多個維度將 SPO 與迭代獎勵建模 (RM) 方法進行比較,旨在回答4個問題:VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        1. 當面 intransitive 偏好時,SPO 能否計算 MW?VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        2. 在具有獨特 Copeland Winners / 最優策略的問題上,SPO 能否匹配或超過 RM 樣本效率?VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        3. VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        4. SPO 對隨機偏好的穩健性如何?VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        5. SPO 可以處理非馬爾可夫偏好嗎?VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

        6. VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在最大獎勵偏好、噪聲偏好、非馬爾可夫偏好方面,該研究的實驗結果分別如下圖6、7、8所示:VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          感興趣的讀者可以閱讀論文原文,了解更多研究內容。VbX流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:谷歌提出全新RLHF方法:消除獎勵模型,且無需對抗性訓練http://m.lensthegame.com/show-3-9779-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 蘋果首款空間計算設備 Vision Pro 可能要經歷四代迭代才能達到理想狀態

          下一篇: Windows 11要內置DLSS了!GPU要求不低 需內置NPU_win11內置xgp

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 国产在线精品一区二区中文 | 色偷偷av一区二区三区| 亚洲AV乱码一区二区三区林ゆな| 97久久精品无码一区二区| 精品乱子伦一区二区三区高清免费播放 | 日韩精品一区二区三区不卡| 亚洲香蕉久久一区二区| 日本免费电影一区二区| 亚洲国产精品第一区二区三区| 中文字幕一区一区三区| 无码人妻视频一区二区三区| 精品免费久久久久国产一区| 国产无吗一区二区三区在线欢| 亚洲日本va一区二区三区| 亚洲视频一区网站| 性色A码一区二区三区天美传媒| 一区二区三区免费视频观看| 国产精品538一区二区在线| 人妻互换精品一区二区| 国产电影一区二区| 日韩中文字幕精品免费一区| 无码人妻久久一区二区三区免费| 久久久久一区二区三区| 国产一区二区三区在线2021 | 国产一区二区三区亚洲综合 | 国产一区二区三区小说| 中文字幕日韩精品一区二区三区| 日韩免费无码视频一区二区三区| 夜夜添无码试看一区二区三区| 亚洲一区精品无码| 国模吧一区二区三区| 日本成人一区二区| 亚洲午夜电影一区二区三区| 亚洲一区二区三区免费在线观看| 精品无码一区二区三区爱欲九九| 日本视频一区在线观看免费| 亚洲Av无码国产一区二区| 狠狠综合久久av一区二区| 波多野结衣电影区一区二区三区| 午夜视频久久久久一区 | 精品国产AⅤ一区二区三区4区|