設置
          • 日夜間
            隨系統
            淺色
            深色
          • 主題色

          OpenAI最新模型o3展現強大推理能力

          2024-12-26 15:23:35 來源: 科技日報

          12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱,o3具備更先進、近似人類的推理能力,在代碼編寫、數學競賽和掌握人類博士級別的科學知識等方面,均超越了其“前輩”o1。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,英國《新科學家》網站在12月22日的報道中指出,盡管o3“實現了令人矚目的性能飛躍”,但仍未達到業內翹首以盼的通用AI(AGI)水平。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          多方面表現出色BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          OpenAI公司透露,在解決更復雜的多步驟問題時,o3模型會花更多時間計算答案,然后再給出回應。這一推理能力的提升,使o3在多項測試中表現出色。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          大型語言模型熱衷于在各種數學基準測試上瘋狂“刷分”,o3也不例外。在2024年美國數學邀請賽中,o3模型的準確率高達96.7%,僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          Frontier Math測試難度極大,曾被華裔數學家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而,o3只需思考幾分鐘便能解答其中一道題目,而人類數學家則要花費數小時到數天。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在對科學知識的掌握方面,o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現,涵蓋化學、物理和生物學方面的專業知識)基準測試中,o3的準確率達到87.7%,超過了人類博士的70%,也比之前o1表現高近10%。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上,o3的準確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺中,o3的得分為2727,相當于榜單上第175名人類編程員的水平,而o1得分僅為1891。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在展示了o3取得的這些傲人成績后,OpenAI首席執行官奧爾特曼強調,o3的出現標志著AI進入了下一個發展階段,這些模型可處理需要大量推理的復雜任務。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          與人類智能仍有差異BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          《新科學家》網站還報道,在被視為AGI重要衡量標準的抽象與推理語料庫-AGI(ARC-AGI)大賽中,o3模型也創下新紀錄:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴格的算力限制,在該算力限制下,o3的挑戰以失敗告終。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,在超出官方算力限制172倍的高算力下,o3采用“蠻力”取得了87.5%的成績,達到了代表人類水平的85%門檻。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于o3的表現,谷歌前工程師、ARC-AGI主要創建者弗朗索瓦·肖萊在博客中寫道,這是AI能力的一次驚人且重要的躍升。但o3尚未實現AGI,因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題,這表明其與人類智能存在根本差異。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          AGI是一個假想中的未來系統,它能夠模仿人類思維、決策,擁有自我意識,并能自主行動。然而,AGI目前主要活躍在科幻作品中,尚未走進現實。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          升級迭代并非易事BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          o3不僅是OpenAI公司的最新力作,也是AI巨頭競逐大型語言模型的生動寫照。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          兩年前,OpenAI發布了ChatGPT,由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準確、更具創造性的GPT-4,再到o1,直至o3,OpenAI在不斷精進自家產品。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          其他頂級AI開發商也在利用日益先進的技術,推動自家產品迭代升級。此前不久,谷歌推出了其旗艦模型“雙子座”(Gemini)的新版本,據稱其速度是上一代的兩倍,并且能夠“思考、記憶、規劃,甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,迭代之路并非坦途。包括OpenAI和谷歌在內的幾家領軍企業,正面臨新模型開發耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發工作進展緩慢。據悉,僅6個月的訓練,單計算成本就高達約5億美元,而性能僅比該公司現有產品略勝一籌。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          12月20日,美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱,o3具備更先進、近似人類的推理能力,在代碼編寫、數學競賽和掌握人類博士級別的科學知識等方面,均超越了其“前輩”o1。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,英國《新科學家》網站在12月22日的報道中指出,盡管o3“實現了令人矚目的性能飛躍”,但仍未達到業內翹首以盼的通用AI(AGI)水平。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          多方面表現出色BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          OpenAI公司透露,在解決更復雜的多步驟問題時,o3模型會花更多時間計算答案,然后再給出回應。這一推理能力的提升,使o3在多項測試中表現出色。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          大型語言模型熱衷于在各種數學基準測試上瘋狂“刷分”,o3也不例外。在2024年美國數學邀請賽中,o3模型的準確率高達96.7%,僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中,o3也解決了25.2%的問題。盡管這一得分看似不高,但此前其他大型語言模型曾在此“集體翻車”,正確率均未超過2%。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          Frontier Math測試難度極大,曾被華裔數學家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而,o3只需思考幾分鐘便能解答其中一道題目,而人類數學家則要花費數小時到數天。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在對科學知識的掌握方面,o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現,涵蓋化學、物理和生物學方面的專業知識)基準測試中,o3的準確率達到87.7%,超過了人類博士的70%,也比之前o1表現高近10%。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          此外,o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上,o3的準確率約為71.7%,比o1高20%以上。在Codeforces編碼競賽平臺中,o3的得分為2727,相當于榜單上第175名人類編程員的水平,而o1得分僅為1891。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          在展示了o3取得的這些傲人成績后,OpenAI首席執行官奧爾特曼強調,o3的出現標志著AI進入了下一個發展階段,這些模型可處理需要大量推理的復雜任務。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          與人類智能仍有差異BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          《新科學家》網站還報道,在被視為AGI重要衡量標準的抽象與推理語料庫-AGI(ARC-AGI)大賽中,o3模型也創下新紀錄:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴格的算力限制,在該算力限制下,o3的挑戰以失敗告終。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          不過,在超出官方算力限制172倍的高算力下,o3采用“蠻力”取得了87.5%的成績,達到了代表人類水平的85%門檻。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          對于o3的表現,谷歌前工程師、ARC-AGI主要創建者弗朗索瓦·肖萊在博客中寫道,這是AI能力的一次驚人且重要的躍升。但o3尚未實現AGI,因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題,這表明其與人類智能存在根本差異。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          AGI是一個假想中的未來系統,它能夠模仿人類思維、決策,擁有自我意識,并能自主行動。然而,AGI目前主要活躍在科幻作品中,尚未走進現實。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          升級迭代并非易事BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          o3不僅是OpenAI公司的最新力作,也是AI巨頭競逐大型語言模型的生動寫照。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          兩年前,OpenAI發布了ChatGPT,由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準確、更具創造性的GPT-4,再到o1,直至o3,OpenAI在不斷精進自家產品。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          其他頂級AI開發商也在利用日益先進的技術,推動自家產品迭代升級。此前不久,谷歌推出了其旗艦模型“雙子座”(Gemini)的新版本,據稱其速度是上一代的兩倍,并且能夠“思考、記憶、規劃,甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          然而,迭代之路并非坦途。包括OpenAI和谷歌在內的幾家領軍企業,正面臨新模型開發耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發工作進展緩慢。據悉,僅6個月的訓練,單計算成本就高達約5億美元,而性能僅比該公司現有產品略勝一籌。BQ6流量資訊——探索最新科技、每天知道多一點LLSUM.COM

          本文鏈接:OpenAI最新模型o3展現強大推理能力http://m.lensthegame.com/show-2-9883-0.html

          聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

          上一篇: 長期記憶可獨立于短期記憶形成

          下一篇: 與經典通信信號共享同一光纖 量子隱形傳態通過普通光纜成功傳輸

          熱門資訊

          推薦資訊

          • 日榜
          • 周榜
          • 月榜
          主站蜘蛛池模板: 亚洲精品无码一区二区| 亚洲AV无码一区二区乱孑伦AS| 国产传媒一区二区三区呀| 亚洲福利视频一区| 亚洲一区二区三区自拍公司| 精品久久久久久无码中文字幕一区 | 国产小仙女视频一区二区三区| 一区二区日韩国产精品| 波多野结衣一区二区三区| 久久久久久综合一区中文字幕| 亚洲AV无码一区二三区| 精品国产一区二区三区香蕉事 | 日本高清成本人视频一区| 欧洲精品一区二区三区在线观看| 亚洲欧洲无码一区二区三区| 国产精品区一区二区三在线播放 | 在线观看精品一区| 免费一本色道久久一区| 日本国产一区二区三区在线观看| 中文字幕一区二区三区久久网站 | 久久99国产精品一区二区| 手机看片一区二区| 精品国产日产一区二区三区| 亚洲综合av永久无码精品一区二区| av无码一区二区三区| 中文字幕在线精品视频入口一区| 国产激情无码一区二区| 久久一区不卡中文字幕| 亚洲国产成人一区二区精品区 | 欧美日韩精品一区二区在线观看| 中文无码一区二区不卡αv| 亚洲午夜一区二区电影院| 久久久无码一区二区三区| 亚洲视频一区二区在线观看| 亚洲av乱码一区二区三区| 亚洲欧美日韩国产精品一区| 精品国产精品久久一区免费式 | 国产精品久久久久一区二区| 高清一区二区三区视频| 亚洲熟妇av一区二区三区漫画| 一区二区三区在线免费看|