設(shè)置
          • 日夜間
            隨系統(tǒng)
            淺色
            深色
          • 主題色

          無需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊:上交開源價(jià)值觀對(duì)齊方法OPO,閉源與開源大模型均適用

          2024-01-24 12:47:19 來源:

          聲明:本文來自于微信公眾號(hào) 機(jī)器之心(ID:almosthuman2014),作者:機(jī)器之心,授權(quán)轉(zhuǎn)載發(fā)布。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          隨著人工智能技術(shù)的發(fā)展,以 GPT-4為代表的大語言模型依靠其強(qiáng)大的能力正在對(duì)社會(huì)產(chǎn)生深遠(yuǎn)的影響。與此同時(shí),大模型本身的安全性問題也變得尤為重要。如何確保大語言模型可以和人類的價(jià)值、真實(shí)的意圖相一致,防止模型被濫用、輸出有害的信息,這是大模型安全治理的核心問題。之前的大多數(shù)對(duì)齊方法需要收集新數(shù)據(jù)重新訓(xùn)練模型,然而對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量要求高以及優(yōu)化模型參數(shù)耗時(shí)耗力是對(duì)齊中的痛點(diǎn)。除此之外,待對(duì)齊的價(jià)值觀可能是動(dòng)態(tài)變化的,這進(jìn)一步給大模型價(jià)值觀對(duì)齊帶來了挑戰(zhàn)。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          有鑒于此,上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 GAIR 迅速采取行動(dòng),推出了一種全新的價(jià)值對(duì)齊方法:OPO (On-the-fly Preference Optimization,實(shí)時(shí)偏好優(yōu)化)。OPO 無需訓(xùn)練即可實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)對(duì)齊,而且因其即插即用的特性,適用于所有的開源與閉源大模型。研究者透過 OPO 實(shí)現(xiàn)了大模型對(duì)于法律與道德標(biāo)準(zhǔn)的對(duì)齊,展示了 OPO 的動(dòng)態(tài)性以及優(yōu)越性。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          相比于之前工作中的對(duì)齊方法(i.e., SFT、PPO 和 DPO),OPO 方法有如下優(yōu)勢(shì):00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 無需訓(xùn)練即可實(shí)現(xiàn)價(jià)值觀對(duì)齊;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 舍棄獎(jiǎng)勵(lì)模型,并對(duì)任意大模型均適用,包括開源與閉源大模型;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 容易更新待對(duì)齊的價(jià)值觀。考慮到價(jià)值觀可能會(huì)隨著時(shí)間發(fā)生變化(比如法律),OPO 能方便快捷地通過替換相應(yīng)的準(zhǔn)則完成價(jià)值觀的更新,而其他對(duì)齊方法則需要收集數(shù)據(jù)重新訓(xùn)練模型。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表1:OPO 與 SFT、PPO、DPO 等對(duì)齊方法的對(duì)比。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          目前,該項(xiàng)目開源了大量資源,包括:00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • OPO 代碼(使用方法和測(cè)試流程也已經(jīng)在 GitHub 上給出);00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 5種類型的測(cè)試數(shù)據(jù)集,包括人出的法考題目、《道德與法治》考試題目(只保留了道德相關(guān)的題目)和從 NormBank 數(shù)據(jù)的測(cè)試集中隨機(jī)采樣的題目,以及利用大模型自動(dòng)生成的法律題目和職業(yè)道德題目;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 2大類價(jià)值觀準(zhǔn)則,分別是法律準(zhǔn)則和道德準(zhǔn)則。法律準(zhǔn)則包括截止到2023年7月中國(guó)現(xiàn)行有效的所有法律法規(guī)(約95萬條)。道德準(zhǔn)則:①?gòu)闹袑W(xué)的《道德與法治》教材里收集的基礎(chǔ)道德準(zhǔn)則;②從網(wǎng)上收集多家不同公司 / 行業(yè)的職業(yè)道德準(zhǔn)則;③從 NormBank 訓(xùn)練集數(shù)據(jù)中隨機(jī)抽取得到的社會(huì)道德規(guī)則;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 用于自動(dòng)生成測(cè)試數(shù)據(jù)的 prompt 以及評(píng)估生成的測(cè)試數(shù)據(jù)質(zhì)量的 prompt;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 用 OpenAI embedding 模型提取的法律和道德準(zhǔn)則文本對(duì)應(yīng)的向量。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 論文:Align on the Fly: Adapting Chatbot Behavior to Established Norms00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 論文地址:https://arxiv.org/abs/2312.1590700r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 項(xiàng)目地址:https://gair-nlp.github.io/OPO/00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          • 代碼地址:https://github.com/GAIR-NLP/OPO00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          方法00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          OPO 框架包含3部分,準(zhǔn)則構(gòu)建模塊、對(duì)齊模塊和評(píng)估模塊。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖1:OPO 框架。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          準(zhǔn)則構(gòu)建模塊:00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          收集原始的準(zhǔn)則文檔,清洗文本數(shù)據(jù),統(tǒng)一準(zhǔn)則的格式,分別得到一個(gè)法律準(zhǔn)則語料庫和道德準(zhǔn)則語料庫。具體而言,對(duì)于法律準(zhǔn)則,研究者從國(guó)家法律法規(guī)數(shù)據(jù)庫中收集憲法、行政法規(guī)、地方性法規(guī)等法律法規(guī),從國(guó)家規(guī)章庫中收集部門規(guī)章與地方政府規(guī)章。這2個(gè)數(shù)據(jù)庫涵蓋了中國(guó)現(xiàn)行有效的所有法律。對(duì)于道德準(zhǔn)則,研究者從中學(xué)的《道德與法治》教材里收集剔除法治內(nèi)容后的文本作為基礎(chǔ)道德準(zhǔn)則,從網(wǎng)上收集了57家不同公司 / 行業(yè)的職業(yè)道德準(zhǔn)則。除了收集顯式的道德準(zhǔn)則外,研究者也嘗試從人標(biāo)注好的道德數(shù)據(jù)里提取道德準(zhǔn)則。從 NormBank 的訓(xùn)練集里隨機(jī)選了1000條數(shù)據(jù),每一條數(shù)據(jù)均是一個(gè)結(jié)構(gòu)化的社會(huì)道德場(chǎng)景,之后研究者利用 ChatGPT 從每條數(shù)據(jù)里提取一條社會(huì)道德準(zhǔn)則。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表2:收集的道德準(zhǔn)則與法律準(zhǔn)則的分析。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表3:收集的法律準(zhǔn)則、基礎(chǔ)道德準(zhǔn)則、職業(yè)道德準(zhǔn)則和社會(huì)道德準(zhǔn)則的示例。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          對(duì)齊模塊:00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          對(duì)齊模塊基于檢索增強(qiáng)生成(RAG),旨在通過提供相應(yīng)的準(zhǔn)則,引導(dǎo)大模型在遵守準(zhǔn)則的前提下更好地回答用戶的問題。研究者利用 OpenAI 的 text-embedding-ada-002embedding 模型將每條準(zhǔn)則都表征為稠密向量并存儲(chǔ)在一個(gè)向量庫里。給定一個(gè)提問,首先也將問詢轉(zhuǎn)換為一個(gè)稠密向量,然后利用 Faiss 作為檢索器在向量庫里檢索和問詢最相關(guān)的 k 條準(zhǔn)則,接下來,大模型會(huì)通過設(shè)計(jì)的 prompt 利用檢索回來的準(zhǔn)則作為行為規(guī)范回答問詢。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖2:利用檢索信息回答問詢的 prompt。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          評(píng)估模塊:00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          評(píng)估模塊是一個(gè)通用可擴(kuò)展的問題自動(dòng)生成工具,能夠輕松擴(kuò)展評(píng)測(cè)范圍、擴(kuò)大評(píng)測(cè)數(shù)據(jù)數(shù)量,還能緩解測(cè)試數(shù)據(jù)泄露的問題。大模型在預(yù)訓(xùn)練和有監(jiān)督微調(diào)階段通常會(huì)涉及大量的非公開文本,之前的一些研究表明這可能會(huì)造成測(cè)試數(shù)據(jù)泄露的問題,進(jìn)而影響大模型性能對(duì)比的公平性。此外,研究者觀察到人出的法考題目只涵蓋一小部分法律,很多法律尤其是地方性法律沒有被覆蓋到,而對(duì)于這部分法律又很難收集到相應(yīng)的測(cè)試題目。并且,職業(yè)道德作為道德的一個(gè)重要組成部分,目前沒有對(duì)應(yīng)的測(cè)試基準(zhǔn)。為了解決上述問題,研究者提出了一個(gè)評(píng)估模塊,該模塊利用 GPT-4自動(dòng)生成帶有答案的單項(xiàng)選擇題。評(píng)估模塊共包含3步:00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          1. 自動(dòng)出題:收集人出的單項(xiàng)選擇題并從中隨機(jī)抽取一道題作為 seed quesiton,同時(shí)從收集的準(zhǔn)則庫里隨機(jī)選擇準(zhǔn)則,要求 GPT-4參考 seed quesiton 并依據(jù)準(zhǔn)則和出題要求生成一道合理的包含題目、備選項(xiàng)、選項(xiàng)分析和答案的單項(xiàng)選擇題;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          2. 自動(dòng)檢測(cè)題目質(zhì)量:將第一步的準(zhǔn)則和生成的題目輸入到 GPT-4,對(duì)單項(xiàng)選擇題的4個(gè)部分(題目、備選項(xiàng)、選項(xiàng)分析和答案)依次核驗(yàn),篩掉任意一部分不符合要求的題目;00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          3. 人工檢測(cè)題目質(zhì)量:研究者發(fā)現(xiàn)利用 GPT-4并不能去掉所有質(zhì)量差的自動(dòng)生成的題目。為了確保評(píng)估的可靠性,研究者邀請(qǐng)了3個(gè)人類標(biāo)注者,對(duì)第二步保留的題目作進(jìn)一步的篩選。如果2個(gè)及以上的標(biāo)注者都認(rèn)為某道題不合理,則去掉這道題。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          實(shí)驗(yàn)和結(jié)果00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          為了驗(yàn)證 OPO 的有效性,研究者構(gòu)建了三個(gè)由人類標(biāo)注的測(cè)試基準(zhǔn),以及兩個(gè)由模型自動(dòng)生成的測(cè)試基準(zhǔn)。這些基準(zhǔn)涵蓋了法律和道德兩大類別,包括中文和英文基準(zhǔn)。測(cè)試基準(zhǔn)中的每一條數(shù)據(jù)均為單項(xiàng)選擇題。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表4:測(cè)試基準(zhǔn)的分析。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          在 H-Law 和 A-Law 測(cè)試基準(zhǔn)上,OPO 能顯著提高大多數(shù)模型的準(zhǔn)確率。尤其值得一提的是,OPO 能在 A-Law 測(cè)試基準(zhǔn)上為許多大型模型帶來10個(gè)百分點(diǎn)的準(zhǔn)確率提升。例如,經(jīng)過 OPO 優(yōu)化后,GPT-4的準(zhǔn)確度從84.83% 提升至94.65%。此外,國(guó)產(chǎn)大模型 Qwen-Chat-14B 和 XuanYuan-70B 在應(yīng)用 OPO 后的表現(xiàn)不僅與 GPT-4不相上下,而且略微優(yōu)勝。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表5:各個(gè)大模型在 H-Law 與 A-Law 上的原始準(zhǔn)確率(Base)、應(yīng)用 OPO 后的準(zhǔn)確率(OPO)、將生成題目用到的準(zhǔn)則替換 OPO 中檢索得到的準(zhǔn)則后的準(zhǔn)確率(Oracle)。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表示 OPO 相比 Base 的絕對(duì)提升,而00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表示 Oracle 相比 Base 的絕對(duì)提升。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 等3個(gè)道德測(cè)試基準(zhǔn)上,能觀察到類似的現(xiàn)象。OPO 能提升所有模型在 A-Professional-Morality 上的表現(xiàn),提升大部分模型在 H-Basic-Morality 和 H-Social-Morality 上的分?jǐn)?shù)。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表6:各個(gè)大模型在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 上的原始準(zhǔn)確率(Base)、應(yīng)用 OPO 后的準(zhǔn)確率(OPO)、將生成選擇題用到的準(zhǔn)則替換 OPO 中檢索得到的準(zhǔn)則后的準(zhǔn)確率(Oracle)。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表示 OPO 相比 Base 的絕對(duì)提升,而00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          表示 Oracle 相比 Base 的絕對(duì)提升。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          同時(shí),研究者還探索了不同檢索長(zhǎng)度對(duì) OPO 方法的影響。檢索回來的文本長(zhǎng)度最大值分別設(shè)置成200、500、1000、1500、2000,發(fā)現(xiàn)大部分模型在不同的測(cè)試基準(zhǔn)上均具有相似的趨勢(shì):隨著檢索長(zhǎng)度的增加,模型的性能先上升后下降。可能得原因是,較短的文本提供了有益信息,而更長(zhǎng)的檢索內(nèi)容引入了噪聲。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖3:在 H-law 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖4:在 A-law 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖5:在 H-Basic-Morality 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖6:在 H-Social-Morality 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          圖7:在 A-Professional-morality 基準(zhǔn)上,改變檢索長(zhǎng)度對(duì) OPO 效果的影響。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          總結(jié)00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          總結(jié)來說,GAIR 研究組提出了一個(gè)無需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊的方法 OPO,能夠作用于開源模型與閉源模型。同時(shí),為了緩解測(cè)試數(shù)據(jù)泄露的問題并擴(kuò)大測(cè)試數(shù)據(jù)的數(shù)量與覆蓋范圍,研究者介紹了一個(gè)可擴(kuò)展的評(píng)估模塊用于根據(jù)準(zhǔn)則自動(dòng)生成測(cè)試問題。實(shí)驗(yàn)證明 OPO 能夠顯著提升不同大模型在5個(gè)測(cè)試基準(zhǔn)上的性能。此外,也公開了收集的所有法律準(zhǔn)則與道德準(zhǔn)則,以及5個(gè)測(cè)試基準(zhǔn)中所使用的所有數(shù)據(jù)。00r流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          本文鏈接:無需訓(xùn)練實(shí)現(xiàn)價(jià)值觀實(shí)時(shí)動(dòng)態(tài)對(duì)齊:上交開源價(jià)值觀對(duì)齊方法OPO,閉源與開源大模型均適用http://m.lensthegame.com/show-3-7530-0.html

          聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。

          上一篇: Yann LeCun:生成模型不適合處理視頻,AI得在抽象空間中進(jìn)行預(yù)測(cè)

          下一篇: 蘋果或需支付50億英鎊賠償金「蘋果已付清12億盧布反壟斷罰款 因強(qiáng)制使用蘋果支付系統(tǒng)」

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 亚洲国产精品一区二区久久hs| 久久中文字幕无码一区二区 | 日韩一区二区免费视频| 国产一区二区视频在线观看| 色窝窝无码一区二区三区| 东京热人妻无码一区二区av| 性色av一区二区三区夜夜嗨| 亚洲无线码一区二区三区| 乱码精品一区二区三区| 美女视频黄a视频全免费网站一区| 一本岛一区在线观看不卡| 无码av免费一区二区三区试看 | 亚洲一区精品中文字幕| 欧美av色香蕉一区二区蜜桃小说 | 亚洲AV日韩综合一区| 亚洲成a人一区二区三区| 国偷自产一区二区免费视频| 国产在线一区二区视频| 中文字幕一区二区三区在线播放 | 无码人妻精品一区二区三区久久| 久久久久人妻一区二区三区vr| 日本无码一区二区三区白峰美| 中文人妻av高清一区二区| 精品欧美一区二区在线观看| 台湾无码AV一区二区三区| 亚洲一区日韩高清中文字幕亚洲 | 精品一区二区无码AV| 日韩在线一区二区三区视频| 合区精品久久久中文字幕一区| 国产一区二区福利久久| 国产精品视频免费一区二区三区| 春暖花开亚洲性无区一区二区| 在线播放精品一区二区啪视频| 日韩视频在线一区| 国产精品视频一区| 视频精品一区二区三区| 好湿好大硬得深一点动态图91精品福利一区二区 | 三上悠亚日韩精品一区在线 | 免费av一区二区三区| 精品国产a∨无码一区二区三区| 国产午夜精品一区二区三区极品|