91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

6位前DeepMind成員創(chuàng)元系統(tǒng),低成本策略引領(lǐng)大模型推理新突破

   發(fā)布時間:2025-12-15 09:11 作者:鐘景軒

在人工智能領(lǐng)域,一場由前Google DeepMind成員掀起的技術(shù)革新正引發(fā)廣泛關(guān)注。這支6人團隊成立的新公司Poetiq,通過構(gòu)建元系統(tǒng)重新定義了大模型的應用方式,在復雜推理任務(wù)中展現(xiàn)出突破性表現(xiàn)。其研發(fā)的Gemini 3 Pro優(yōu)化技術(shù)在ARC-AGI-2基準測試中以54%的準確率登頂排行榜,同時將計算成本壓縮至行業(yè)最優(yōu)水平的一半。

這個技術(shù)團隊雖成立不足一年,卻匯聚了來自DeepMind的資深專家,累計擁有53年人工智能研發(fā)經(jīng)驗。他們選擇了一條與眾不同的技術(shù)路徑:不追求構(gòu)建更大規(guī)模的模型,而是專注于開發(fā)能夠智能調(diào)度現(xiàn)有模型的元系統(tǒng)。這種創(chuàng)新架構(gòu)使系統(tǒng)能夠自動生成針對特定任務(wù)的解決方案,通過組合不同模型的優(yōu)勢實現(xiàn)性能突破。

在12月8日公布的官方驗證結(jié)果中,Poetiq系統(tǒng)在ARC-AGI-2半私有評估集上創(chuàng)造了新紀錄。其純Gemini配置方案以每題30.57美元的成本達成54%準確率,相比前紀錄保持者Gemini 3 Deep Think(77.16美元/45%)實現(xiàn)雙重超越。更引人注目的是,該系統(tǒng)在公共數(shù)據(jù)集上構(gòu)建的帕累托前沿,同時推進了準確率與成本效率的邊界。

技術(shù)核心在于其遞歸式元系統(tǒng)架構(gòu)。該系統(tǒng)通過多輪交互實現(xiàn)自我優(yōu)化:首先生成初步解決方案,再根據(jù)反饋持續(xù)改進,最終形成可靠答案。這種自我監(jiān)控機制能夠智能判斷何時終止計算,有效避免算力浪費。測試數(shù)據(jù)顯示,基于Grok-4-Fast的配置在保持高準確率的同時,成本比原始模型降低兩個數(shù)量級;而開源模型GPT-OSS-120B的衍生方案,甚至實現(xiàn)了單題成本低于1美分的突破。

該系統(tǒng)的適應性在跨模型測試中得到充分驗證。當應用于ChatGPT、Claude Haiku、Gemini等12個主流模型時,Poetiq均實現(xiàn)了準確率與成本的雙重優(yōu)化。這種表現(xiàn)源于其完全基于大語言模型的架構(gòu)設(shè)計——從系統(tǒng)構(gòu)建到運行監(jiān)控,整個流程均由模型自主完成。這種遞歸式強化機制,使得系統(tǒng)能夠快速整合新模型的能力,在Gemini 3和GPT-5.1發(fā)布后數(shù)小時內(nèi)即完成適配并取得領(lǐng)先成績。

選擇ARC-AGI作為測試場源于其對復雜推理能力的嚴苛考驗。該基準測試要求模型具備抽象推理、歸納總結(jié)和策略生成能力,恰好對應Poetiq系統(tǒng)的優(yōu)勢領(lǐng)域。通過讓模型自主發(fā)現(xiàn)最優(yōu)推理路徑,系統(tǒng)能夠在預算、算力等現(xiàn)實約束下,持續(xù)優(yōu)化解決方案。這種設(shè)計理念在測試中得到充分驗證:系統(tǒng)在處理多樣化任務(wù)時展現(xiàn)出強大的自適應能力,能夠根據(jù)任務(wù)特性動態(tài)調(diào)整模型組合策略。

技術(shù)團隊透露,其開源配置旨在證明智能的本質(zhì)不在于提示詞工程,而在于構(gòu)建能夠自我進化的系統(tǒng)。通過多步驟驗證和自我檢查機制,系統(tǒng)能夠逐步打磨解決方案,這種運行模式突破了傳統(tǒng)大模型對提示詞的依賴。隨著任務(wù)多樣性的增加,元系統(tǒng)的進化速度將進一步提升,為生成式AI在復雜場景的應用開辟新路徑。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群