設(shè)置
          • 日夜間
            隨系統(tǒng)
            淺色
            深色
          • 主題色

          AGI走到分岔路口 大模型“思考力”被低估

          2024-12-25 17:26:28 來(lái)源:

          21世紀(jì)經(jīng)濟(jì)報(bào)道記者孔海麗 北京報(bào)道N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          OpenAI的圣誕節(jié)驚喜比原定多持續(xù)了一天,第13天,OpenAI CEO 塞姆·奧特曼(Sam Altman)宣布,圣誕假期期間為所有plus用戶(hù)提供無(wú)限次使用Sora的機(jī)會(huì),這原本是月費(fèi)200美元的Pro用戶(hù)才有的待遇。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          連續(xù)12天的新品發(fā)布中,OpenAI先后拿出了完整版o1、加強(qiáng)版Sora、ChatGPT Search、電話(huà)功能、新模型o3。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          尤其是o3,被評(píng)為OpenAI的“大殺器”,也就是推理模型o1的第二代。為了避開(kāi)與英國(guó)知名電信運(yùn)營(yíng)商o2可能的知識(shí)產(chǎn)權(quán)糾紛,OpenAI推理模型系列跳過(guò)o2,直接命名為o3。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          但OpenAI的ChatGPT-5卻遲遲不見(jiàn)動(dòng)靜。據(jù)知情人士透露,該項(xiàng)目已開(kāi)發(fā)超過(guò)18個(gè)月,成本花費(fèi)巨大,卻仍未取得預(yù)期成果——Scaling Law的暴力美學(xué)似乎已經(jīng)遇到瓶頸,更大的參數(shù)、更多的數(shù)據(jù),已經(jīng)不能為AI大模型帶來(lái)質(zhì)的飛躍。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          當(dāng)擴(kuò)大AI大模型的訓(xùn)練規(guī)模失去“高回報(bào)”,OpenAI強(qiáng)調(diào)推理時(shí)間、思考時(shí)長(zhǎng)的o系列,會(huì)是解題思路嗎?N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          被低估的推理路線(xiàn)N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          OpenAI o系列發(fā)布時(shí),就有觀(guān)點(diǎn)認(rèn)為,“當(dāng)大模型具備了‘思考’能力,通往AGI再也沒(méi)有障礙”。如今,o3較o1獲得大幅進(jìn)步,也再次證明了增加推理時(shí)間是一條有效路徑。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          OpenAI知名研究員、o1研究團(tuán)隊(duì)的核心科學(xué)家諾姆·布朗(Noam Brown)近期表達(dá)了對(duì)“推理時(shí)計(jì)算”技術(shù)的樂(lè)觀(guān)期待。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          所謂“推理時(shí)計(jì)算”技術(shù),是擴(kuò)展推理過(guò)程中的計(jì)算量,讓大模型能夠在推理階段進(jìn)行更深入的思考和計(jì)算,從而解決更復(fù)雜的問(wèn)題。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          諾姆·布朗認(rèn)為,在Scaling Law法則下,通過(guò)擴(kuò)大預(yù)訓(xùn)練規(guī)模來(lái)提升模型性能雖行之有效,但其所伴隨的高昂成本問(wèn)題不容忽視,并且從長(zhǎng)遠(yuǎn)來(lái)看,這種方式必然會(huì)遭遇發(fā)展瓶頸,難以為繼。而“推理時(shí)計(jì)算”技術(shù)的出現(xiàn),為解決這一瓶頸提供了全新的思路,將加速AGI的到來(lái)。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          o1和o3大模型是“推理時(shí)計(jì)算”技術(shù)迭代出來(lái)的大模型,可以自主學(xué)習(xí)策略、拆解任務(wù)、識(shí)別并糾正錯(cuò)誤,更深入地推理和解決更復(fù)雜的問(wèn)題。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          并且,據(jù)透露,OpenAI內(nèi)部也意識(shí)到了靠擴(kuò)大預(yù)訓(xùn)練規(guī)模無(wú)法實(shí)現(xiàn)AGI,“推理時(shí)計(jì)算”也是他們尋找的新突破口。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          “‘推理時(shí)計(jì)算’技術(shù)的意義被大大低估了,而且目前這項(xiàng)技術(shù)處于早期發(fā)展階段,未來(lái)會(huì)有巨大的提升空間。” 諾姆·布朗介紹說(shuō),當(dāng)大模型“思考”更長(zhǎng)時(shí)間時(shí),它開(kāi)始展現(xiàn)出一些原本需要人工添加到模型中的能力,比如嘗試不同的策略、將復(fù)雜問(wèn)題拆解成數(shù)個(gè)子問(wèn)題、識(shí)別并自我糾正錯(cuò)誤。這也是研究人員們相信“推理時(shí)計(jì)算”是通往AGI的關(guān)鍵路徑的原因。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          o3被寄予厚望

          作為推理模型的升級(jí)版,o3的多項(xiàng)性能表現(xiàn)堪稱(chēng)卓越,從測(cè)試成績(jī)看稱(chēng)得上是碾壓目前市面上的大模型。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          在真實(shí)世界軟件任務(wù)評(píng)估(HumanEval-Verified)中,o3編程能力的準(zhǔn)確率為71.7%,比o1提升20%以上;在競(jìng)爭(zhēng)性代碼編程平臺(tái)(Competition Code)上,評(píng)分為2727分,超過(guò)了OpenAI首席科學(xué)家的2665分,而o1為1891分。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          數(shù)學(xué)推理能力方面,在美國(guó)數(shù)學(xué)奧林匹克考試(AIME)中,o3只漏掉了一個(gè)題,準(zhǔn)確率為96.7%,在博士級(jí)科學(xué)問(wèn)題測(cè)試(GPQA Diamond)中,準(zhǔn)確率為87.7%,而人類(lèi)專(zhuān)家的平均水平為70%。在前沿?cái)?shù)學(xué)基準(zhǔn)測(cè)試EpochAI Frontier Math中,準(zhǔn)確率超過(guò)o1 10倍。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          最讓業(yè)界震驚的,是它在Arc AGI測(cè)試中的表現(xiàn)。Arc AGI是法國(guó)人工智能開(kāi)發(fā)者弗朗索瓦·肖萊(Fran?ois Chollet)2019年設(shè)計(jì)的,目前公認(rèn)為衡量AI系統(tǒng)在數(shù)學(xué)和邏輯問(wèn)題水平的一種權(quán)威測(cè)試。在該項(xiàng)測(cè)試中,o3低算力配置下的準(zhǔn)確率為75.7%,高算力下的準(zhǔn)確率為87.5%,而人類(lèi)平均水平為85%。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          這些性能表現(xiàn),尤其是在Arc AGI的測(cè)試成績(jī),表明AI在即時(shí)學(xué)習(xí)新規(guī)則和進(jìn)行推理方面,已經(jīng)勝過(guò)人類(lèi)。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          有從業(yè)者甚至表示,OpenAI o3是通往AGI(通用人工智能)的關(guān)鍵一步,或者說(shuō)在通往AGI的路上已經(jīng)沒(méi)有任何障礙。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          狂熱的另一面

          也有不少研究者和科學(xué)家冷靜看待。在o3測(cè)試中,有兩個(gè)問(wèn)題引起了從業(yè)人員的關(guān)注。一是太過(guò)昂貴。Arc AGI研究人員透露,在高算力配置下,o3完成每個(gè)任務(wù)需要花費(fèi)3400美元。短期內(nèi),這種高昂成本是其商業(yè)化的絆腳石。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          大模型訓(xùn)練是典型的“燒錢(qián)游戲”。據(jù)透露,GPT-4的訓(xùn)練成本超1億美元,而正在研發(fā)中的GPT-5,6個(gè)月的訓(xùn)練僅算力成本就達(dá)5億美元。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          二是o3還會(huì)犯簡(jiǎn)單的推理錯(cuò)誤。弗朗索瓦·肖萊認(rèn)為,o3能夠適應(yīng)以前從未遇到過(guò)的任務(wù),在ARC-AGI領(lǐng)域接近人類(lèi)水平。但是,通過(guò)ARC-AGI測(cè)試拿到高分并不等同于實(shí)現(xiàn)AGI,“實(shí)際上,我認(rèn)為o3還不是AGI。o3在一些非常簡(jiǎn)單的任務(wù)上仍然會(huì)失敗,這表明它與人類(lèi)智能存在根本性的差異?!?span style="display:none">N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          弗朗索瓦·肖萊后面的這句話(huà),也正是一些科學(xué)家所強(qiáng)調(diào)的。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          AI機(jī)器視覺(jué)知名學(xué)者、香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院院長(zhǎng)兼數(shù)據(jù)科學(xué)研究院院長(zhǎng)馬毅說(shuō),現(xiàn)在的大模型只有Knowledge(知識(shí)),沒(méi)有intelligence(智能),“知識(shí)是智能活動(dòng)的積分,而智能是知識(shí)的微分”。GPT-4有知識(shí),但沒(méi)有智能;新生兒有智能,不一定有知識(shí),但一個(gè)新生兒很可能變成下一代愛(ài)因斯坦。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          一位在硅谷工作的AI工程師說(shuō),o3雖然多項(xiàng)性能表現(xiàn)卓越,但仍然只是OpenAI推理模型的第二代,不宜過(guò)分拔高。而且其測(cè)試樣本(人數(shù))有限,不能就此得出結(jié)論說(shuō)它的智慧就已經(jīng)在整體上達(dá)到甚至超越人類(lèi)的專(zhuān)家水平。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          幻覺(jué)難題待解

          能思考、懂推理的人工智能,會(huì)不會(huì)犯錯(cuò)?N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          人工智能近兩年的快速發(fā)展,尤其是大模型的高速迭代,涌現(xiàn)了一些需要重新厘定的新問(wèn)題。比如,谷歌發(fā)布量子芯片Willow后,阿里云創(chuàng)始人王堅(jiān)院士就提出,特定裝置下量子計(jì)算的“計(jì)算”,與傳統(tǒng)計(jì)算機(jī)的“計(jì)算”,是不是同一個(gè)定義,值得探索。同樣,以O(shè)penAI o3在編程和數(shù)學(xué)推理能力表現(xiàn)出的intelligence,與人類(lèi)的intelligence,是不是同一個(gè)定義,也值得探討。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          至今仍存在的大模型幻覺(jué)問(wèn)題是一項(xiàng)行業(yè)難題。所謂幻覺(jué),是指大模型或垂直模型生成的部分信息,貌似合理卻自相矛盾,一本正經(jīng)卻完全錯(cuò)誤。這類(lèi)似于人類(lèi)的說(shuō)謊。在金融、醫(yī)療、公共安全等領(lǐng)域,如果模型生成的關(guān)鍵信息不準(zhǔn)確,而人工在后期又不加以甄別,可能釀成嚴(yán)重后果。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          OpenAI 的語(yǔ)音轉(zhuǎn)寫(xiě)工具Whisper 最近被曝出現(xiàn)較大比例的幻覺(jué)現(xiàn)象。密歇根大學(xué)研究員發(fā)現(xiàn),Whisper 每10份音頻轉(zhuǎn)錄中有8份出現(xiàn)幻覺(jué);有機(jī)器學(xué)習(xí)工程師稱(chēng)其分析的超100小時(shí)轉(zhuǎn)錄文件約一半出現(xiàn)幻覺(jué)。今年10月有媒體報(bào)道,美國(guó)很多醫(yī)生和醫(yī)療機(jī)構(gòu)利用Whisper來(lái)轉(zhuǎn)錄醫(yī)生與患者的會(huì)診,比如包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超30000名臨床醫(yī)生和40個(gè)醫(yī)療系統(tǒng),使用由Nabla公司基于Whisper開(kāi)發(fā)的工具,該工具已用于轉(zhuǎn)錄約700萬(wàn)次醫(yī)療就診。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          雖然去年5月OpenAI 就宣布找到了防止或減少模型幻覺(jué)的辦法,也就是該公司官方論文所說(shuō)的,“通過(guò)過(guò)程監(jiān)督改進(jìn)數(shù)學(xué)推理”,但Whisper轉(zhuǎn)錄的醫(yī)療診斷或用藥診斷,出現(xiàn)如此高比例的幻覺(jué),依然令業(yè)界驚訝。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          幻覺(jué)正是ChatGPT、谷歌Bard等大模型在知識(shí)領(lǐng)域突飛猛進(jìn),在智能方面卻存在明顯缺陷的典型表現(xiàn)。人類(lèi)說(shuō)謊,輕則報(bào)以道德訓(xùn)誡,重則施以法律規(guī)制,而對(duì)付機(jī)器說(shuō)謊,也必須“與人類(lèi)對(duì)齊”。這是包括OpenAI在內(nèi),在通往AGI的路上必須解決的重大課題。N3l流量資訊——探索最新科技、每天知道多一點(diǎn)LLSUM.COM

          本文鏈接:AGI走到分岔路口 大模型“思考力”被低估http://m.lensthegame.com/show-2-9856-0.html

          聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀(guān)點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。

          上一篇: 評(píng)論丨“臭車(chē)風(fēng)波”背后:司機(jī)生存困境與平臺(tái)整改難題

          下一篇: 深圳“天空之城”這一年:政策基建充當(dāng)排頭兵 低空應(yīng)用探索緊隨其后

          熱門(mén)資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 国产午夜精品一区二区三区嫩草| 无码精品人妻一区二区三区漫画| 冲田杏梨高清无一区二区| 97se色综合一区二区二区| 国产乱码精品一区二区三区中| 国产91大片精品一区在线观看 | 亚洲视频一区二区三区| 日本一区二区视频| 色系一区二区三区四区五区| 香蕉一区二区三区观| 日韩人妻无码一区二区三区99| 亚洲AV无码一区二区三区性色| 精品视频在线观看一区二区三区| 国产午夜精品一区二区三区不卡| 久久久久人妻一区精品性色av| 日本精品一区二区三区视频| 不卡无码人妻一区三区音频| 亚洲国产日韩在线一区| 亚洲国产高清在线一区二区三区 | 亚洲男女一区二区三区| 国产一区内射最近更新| 国产suv精品一区二区33| 国产精品一区二区香蕉| 无码人妻视频一区二区三区 | 波多野结衣在线观看一区| 亚洲av不卡一区二区三区| 无码aⅴ精品一区二区三区| 国偷自产av一区二区三区| 午夜在线视频一区二区三区 | 国产自产在线视频一区| 亚洲Av永久无码精品一区二区 | 影院无码人妻精品一区二区| 日韩人妻无码一区二区三区99| 福利视频一区二区牛牛| 亚洲国产精品一区二区三区在线观看| 激情内射亚州一区二区三区爱妻| 国内精自品线一区91| 久久亚洲日韩精品一区二区三区| 国产精品 视频一区 二区三区 | 高清无码一区二区在线观看吞精 | 国语对白一区二区三区|