AGI走到分岔路口大模型“思考力”被低估

2024-12-25 17:26:28 來(lái)源：

觀(guān)看：72

21世紀(jì)經(jīng)濟(jì)報(bào)道記者孔海麗北京報(bào)道

OpenAI的圣誕節(jié)驚喜比原定多持續(xù)了一天，第13天，OpenAI CEO 塞姆·奧特曼（Sam Altman）宣布，圣誕假期期間為所有plus用戶(hù)提供無(wú)限次使用Sora的機(jī)會(huì)，這原本是月費(fèi)200美元的Pro用戶(hù)才有的待遇。

連續(xù)12天的新品發(fā)布中，OpenAI先后拿出了完整版o1、加強(qiáng)版Sora、ChatGPT Search、電話(huà)功能、新模型o3。

尤其是o3，被評(píng)為OpenAI的“大殺器”，也就是推理模型o1的第二代。為了避開(kāi)與英國(guó)知名電信運(yùn)營(yíng)商o2可能的知識(shí)產(chǎn)權(quán)糾紛，OpenAI推理模型系列跳過(guò)o2，直接命名為o3。

但OpenAI的ChatGPT-5卻遲遲不見(jiàn)動(dòng)靜。據(jù)知情人士透露，該項(xiàng)目已開(kāi)發(fā)超過(guò)18個(gè)月，成本花費(fèi)巨大，卻仍未取得預(yù)期成果——Scaling Law的暴力美學(xué)似乎已經(jīng)遇到瓶頸，更大的參數(shù)、更多的數(shù)據(jù)，已經(jīng)不能為AI大模型帶來(lái)質(zhì)的飛躍。

當(dāng)擴(kuò)大AI大模型的訓(xùn)練規(guī)模失去“高回報(bào)”，OpenAI強(qiáng)調(diào)推理時(shí)間、思考時(shí)長(zhǎng)的o系列，會(huì)是解題思路嗎？

被低估的推理路線(xiàn)

OpenAI o系列發(fā)布時(shí)，就有觀(guān)點(diǎn)認(rèn)為，“當(dāng)大模型具備了‘思考’能力，通往AGI再也沒(méi)有障礙”。如今，o3較o1獲得大幅進(jìn)步，也再次證明了增加推理時(shí)間是一條有效路徑。

OpenAI知名研究員、o1研究團(tuán)隊(duì)的核心科學(xué)家諾姆·布朗（Noam Brown）近期表達(dá)了對(duì)“推理時(shí)計(jì)算”技術(shù)的樂(lè)觀(guān)期待。

所謂“推理時(shí)計(jì)算”技術(shù)，是擴(kuò)展推理過(guò)程中的計(jì)算量，讓大模型能夠在推理階段進(jìn)行更深入的思考和計(jì)算，從而解決更復(fù)雜的問(wèn)題。

諾姆·布朗認(rèn)為，在Scaling Law法則下，通過(guò)擴(kuò)大預(yù)訓(xùn)練規(guī)模來(lái)提升模型性能雖行之有效，但其所伴隨的高昂成本問(wèn)題不容忽視，并且從長(zhǎng)遠(yuǎn)來(lái)看，這種方式必然會(huì)遭遇發(fā)展瓶頸，難以為繼。而“推理時(shí)計(jì)算”技術(shù)的出現(xiàn)，為解決這一瓶頸提供了全新的思路，將加速AGI的到來(lái)。

o1和o3大模型是“推理時(shí)計(jì)算”技術(shù)迭代出來(lái)的大模型，可以自主學(xué)習(xí)策略、拆解任務(wù)、識(shí)別并糾正錯(cuò)誤，更深入地推理和解決更復(fù)雜的問(wèn)題。

并且，據(jù)透露，OpenAI內(nèi)部也意識(shí)到了靠擴(kuò)大預(yù)訓(xùn)練規(guī)模無(wú)法實(shí)現(xiàn)AGI，“推理時(shí)計(jì)算”也是他們尋找的新突破口。

“‘推理時(shí)計(jì)算’技術(shù)的意義被大大低估了，而且目前這項(xiàng)技術(shù)處于早期發(fā)展階段，未來(lái)會(huì)有巨大的提升空間。” 諾姆·布朗介紹說(shuō)，當(dāng)大模型“思考”更長(zhǎng)時(shí)間時(shí)，它開(kāi)始展現(xiàn)出一些原本需要人工添加到模型中的能力，比如嘗試不同的策略、將復(fù)雜問(wèn)題拆解成數(shù)個(gè)子問(wèn)題、識(shí)別并自我糾正錯(cuò)誤。這也是研究人員們相信“推理時(shí)計(jì)算”是通往AGI的關(guān)鍵路徑的原因。

o3被寄予厚望

作為推理模型的升級(jí)版，o3的多項(xiàng)性能表現(xiàn)堪稱(chēng)卓越，從測(cè)試成績(jī)看稱(chēng)得上是碾壓目前市面上的大模型。

在真實(shí)世界軟件任務(wù)評(píng)估（HumanEval-Verified）中，o3編程能力的準(zhǔn)確率為71.7%，比o1提升20%以上；在競(jìng)爭(zhēng)性代碼編程平臺(tái)（Competition Code）上，評(píng)分為2727分，超過(guò)了OpenAI首席科學(xué)家的2665分，而o1為1891分。

數(shù)學(xué)推理能力方面，在美國(guó)數(shù)學(xué)奧林匹克考試（AIME）中，o3只漏掉了一個(gè)題，準(zhǔn)確率為96.7%，在博士級(jí)科學(xué)問(wèn)題測(cè)試（GPQA Diamond）中，準(zhǔn)確率為87.7%，而人類(lèi)專(zhuān)家的平均水平為70%。在前沿?cái)?shù)學(xué)基準(zhǔn)測(cè)試EpochAI Frontier Math中，準(zhǔn)確率超過(guò)o1 10倍。

最讓業(yè)界震驚的，是它在Arc AGI測(cè)試中的表現(xiàn)。Arc AGI是法國(guó)人工智能開(kāi)發(fā)者弗朗索瓦·肖萊（Fran?ois Chollet）2019年設(shè)計(jì)的，目前公認(rèn)為衡量AI系統(tǒng)在數(shù)學(xué)和邏輯問(wèn)題水平的一種權(quán)威測(cè)試。在該項(xiàng)測(cè)試中，o3低算力配置下的準(zhǔn)確率為75.7%，高算力下的準(zhǔn)確率為87.5%，而人類(lèi)平均水平為85%。

這些性能表現(xiàn)，尤其是在Arc AGI的測(cè)試成績(jī)，表明AI在即時(shí)學(xué)習(xí)新規(guī)則和進(jìn)行推理方面，已經(jīng)勝過(guò)人類(lèi)。

有從業(yè)者甚至表示，OpenAI o3是通往AGI（通用人工智能）的關(guān)鍵一步，或者說(shuō)在通往AGI的路上已經(jīng)沒(méi)有任何障礙。

狂熱的另一面

也有不少研究者和科學(xué)家冷靜看待。在o3測(cè)試中，有兩個(gè)問(wèn)題引起了從業(yè)人員的關(guān)注。一是太過(guò)昂貴。Arc AGI研究人員透露，在高算力配置下，o3完成每個(gè)任務(wù)需要花費(fèi)3400美元。短期內(nèi)，這種高昂成本是其商業(yè)化的絆腳石。

大模型訓(xùn)練是典型的“燒錢(qián)游戲”。據(jù)透露，GPT-4的訓(xùn)練成本超1億美元，而正在研發(fā)中的GPT-5，6個(gè)月的訓(xùn)練僅算力成本就達(dá)5億美元。

二是o3還會(huì)犯簡(jiǎn)單的推理錯(cuò)誤。弗朗索瓦·肖萊認(rèn)為，o3能夠適應(yīng)以前從未遇到過(guò)的任務(wù)，在ARC-AGI領(lǐng)域接近人類(lèi)水平。但是，通過(guò)ARC-AGI測(cè)試拿到高分并不等同于實(shí)現(xiàn)AGI，“實(shí)際上，我認(rèn)為o3還不是AGI。o3在一些非常簡(jiǎn)單的任務(wù)上仍然會(huì)失敗，這表明它與人類(lèi)智能存在根本性的差異?！?span style="display:none">N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

弗朗索瓦·肖萊后面的這句話(huà)，也正是一些科學(xué)家所強(qiáng)調(diào)的。

AI機(jī)器視覺(jué)知名學(xué)者、香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院院長(zhǎng)兼數(shù)據(jù)科學(xué)研究院院長(zhǎng)馬毅說(shuō)，現(xiàn)在的大模型只有Knowledge（知識(shí)），沒(méi)有intelligence（智能），“知識(shí)是智能活動(dòng)的積分，而智能是知識(shí)的微分”。GPT-4有知識(shí)，但沒(méi)有智能；新生兒有智能，不一定有知識(shí)，但一個(gè)新生兒很可能變成下一代愛(ài)因斯坦。

一位在硅谷工作的AI工程師說(shuō)，o3雖然多項(xiàng)性能表現(xiàn)卓越，但仍然只是OpenAI推理模型的第二代，不宜過(guò)分拔高。而且其測(cè)試樣本（人數(shù)）有限，不能就此得出結(jié)論說(shuō)它的智慧就已經(jīng)在整體上達(dá)到甚至超越人類(lèi)的專(zhuān)家水平。

幻覺(jué)難題待解

能思考、懂推理的人工智能，會(huì)不會(huì)犯錯(cuò)？

人工智能近兩年的快速發(fā)展，尤其是大模型的高速迭代，涌現(xiàn)了一些需要重新厘定的新問(wèn)題。比如，谷歌發(fā)布量子芯片Willow后，阿里云創(chuàng)始人王堅(jiān)院士就提出，特定裝置下量子計(jì)算的“計(jì)算”，與傳統(tǒng)計(jì)算機(jī)的“計(jì)算”，是不是同一個(gè)定義，值得探索。同樣，以O(shè)penAI o3在編程和數(shù)學(xué)推理能力表現(xiàn)出的intelligence，與人類(lèi)的intelligence，是不是同一個(gè)定義，也值得探討。

至今仍存在的大模型幻覺(jué)問(wèn)題是一項(xiàng)行業(yè)難題。所謂幻覺(jué)，是指大模型或垂直模型生成的部分信息，貌似合理卻自相矛盾，一本正經(jīng)卻完全錯(cuò)誤。這類(lèi)似于人類(lèi)的說(shuō)謊。在金融、醫(yī)療、公共安全等領(lǐng)域，如果模型生成的關(guān)鍵信息不準(zhǔn)確，而人工在后期又不加以甄別，可能釀成嚴(yán)重后果。

OpenAI 的語(yǔ)音轉(zhuǎn)寫(xiě)工具Whisper 最近被曝出現(xiàn)較大比例的幻覺(jué)現(xiàn)象。密歇根大學(xué)研究員發(fā)現(xiàn)，Whisper 每10份音頻轉(zhuǎn)錄中有8份出現(xiàn)幻覺(jué)；有機(jī)器學(xué)習(xí)工程師稱(chēng)其分析的超100小時(shí)轉(zhuǎn)錄文件約一半出現(xiàn)幻覺(jué)。今年10月有媒體報(bào)道，美國(guó)很多醫(yī)生和醫(yī)療機(jī)構(gòu)利用Whisper來(lái)轉(zhuǎn)錄醫(yī)生與患者的會(huì)診，比如包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超30000名臨床醫(yī)生和40個(gè)醫(yī)療系統(tǒng)，使用由Nabla公司基于Whisper開(kāi)發(fā)的工具，該工具已用于轉(zhuǎn)錄約700萬(wàn)次醫(yī)療就診。

雖然去年5月OpenAI 就宣布找到了防止或減少模型幻覺(jué)的辦法，也就是該公司官方論文所說(shuō)的，“通過(guò)過(guò)程監(jiān)督改進(jìn)數(shù)學(xué)推理”，但Whisper轉(zhuǎn)錄的醫(yī)療診斷或用藥診斷，出現(xiàn)如此高比例的幻覺(jué)，依然令業(yè)界驚訝。

幻覺(jué)正是ChatGPT、谷歌Bard等大模型在知識(shí)領(lǐng)域突飛猛進(jìn)，在智能方面卻存在明顯缺陷的典型表現(xiàn)。人類(lèi)說(shuō)謊，輕則報(bào)以道德訓(xùn)誡，重則施以法律規(guī)制，而對(duì)付機(jī)器說(shuō)謊，也必須“與人類(lèi)對(duì)齊”。這是包括OpenAI在內(nèi)，在通往AGI的路上必須解決的重大課題。

本文鏈接：AGI走到分岔路口大模型“思考力”被低估http://m.lensthegame.com/show-2-9856-0.html

聲明：本網(wǎng)站為非營(yíng)利性網(wǎng)站，本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn)，不代表本站觀(guān)點(diǎn)，本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅，請(qǐng)大家謹(jǐn)防詐騙！若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。

上一篇：評(píng)論丨“臭車(chē)風(fēng)波”背后：司機(jī)生存困境與平臺(tái)整改難題

下一篇：深圳“天空之城”這一年：政策基建充當(dāng)排頭兵低空應(yīng)用探索緊隨其后

AGI走到分岔路口大模型“思考力”被低估

o3被寄予厚望

狂熱的另一面

幻覺(jué)難題待解

熱門(mén)資訊

推薦資訊

科技最熱文章

AGI走到分岔路口 大模型“思考力”被低估

o3被寄予厚望

狂熱的另一面

幻覺(jué)難題待解

熱門(mén)資訊

推薦資訊

科技最熱文章

AGI走到分岔路口大模型“思考力”被低估