91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

外圍推理編排成關(guān)鍵!Poetiq系統(tǒng)助力GPT-5.2準(zhǔn)確率創(chuàng)新高

   發(fā)布時(shí)間:2025-12-25 17:50 作者:馮璃月

人工智能領(lǐng)域近期迎來(lái)一項(xiàng)突破性進(jìn)展:一家名為Poetiq的初創(chuàng)公司通過其開發(fā)的元系統(tǒng)(meta-system),在不改動(dòng)基礎(chǔ)大模型的前提下,顯著提升了AI在復(fù)雜推理任務(wù)中的表現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)顯示,該系統(tǒng)使GPT-5.2 X-High在權(quán)威測(cè)試集ARC-AGI-2上的成績(jī)達(dá)到75%,較此前最優(yōu)模型提升約15%,同時(shí)將單題處理成本控制在8美元以內(nèi)。

這項(xiàng)成果的核心在于Poetiq構(gòu)建的迭代式推理框架。與傳統(tǒng)AI系統(tǒng)直接生成答案不同,該框架通過多輪交互實(shí)現(xiàn)自我優(yōu)化:系統(tǒng)首先生成初步解決方案,隨后根據(jù)反饋持續(xù)改進(jìn),直至形成最終答案。這種機(jī)制特別引入了自我審計(jì)功能,能夠自動(dòng)判斷何時(shí)已獲得足夠信息,從而及時(shí)終止計(jì)算過程。實(shí)驗(yàn)表明,這種設(shè)計(jì)不僅提升了準(zhǔn)確性,更有效降低了資源消耗——X-High版本之所以成本更低,正是因其能更快收斂到正確解。

測(cè)試采用的PUBLIC-eval數(shù)據(jù)集包含基礎(chǔ)推理、自然語(yǔ)言處理及數(shù)學(xué)推理等標(biāo)準(zhǔn)任務(wù),而更嚴(yán)苛的ARC-AGI-2測(cè)試則聚焦抽象推理、常識(shí)應(yīng)用和創(chuàng)新能力等高階認(rèn)知維度。值得關(guān)注的是,Poetiq未對(duì)任何模型進(jìn)行針對(duì)性訓(xùn)練或優(yōu)化,其系統(tǒng)完全通過改進(jìn)推理策略實(shí)現(xiàn)性能躍升。這種"模型無(wú)關(guān)"的特性,使得元系統(tǒng)能夠無(wú)縫適配不同架構(gòu)的AI模型,包括Gemini 3、GPT-5.1等前沿產(chǎn)品。

該團(tuán)隊(duì)特別強(qiáng)調(diào),所有適配工作均在新模型發(fā)布前完成,且系統(tǒng)從未接觸過測(cè)試任務(wù)集。這種"零接觸"下的跨版本性能提升,證明其捕捉到了推理過程的本質(zhì)規(guī)律,而非依賴特定模型的特性。ARC Prize總裁Greg Kamradt評(píng)價(jià)稱,若成果經(jīng)得起大規(guī)模驗(yàn)證,這套系統(tǒng)將徹底改變AI應(yīng)用模式——通過動(dòng)態(tài)切換模型應(yīng)對(duì)不同任務(wù),無(wú)需為每個(gè)場(chǎng)景重新訓(xùn)練系統(tǒng)。

這項(xiàng)突破由六人團(tuán)隊(duì)完成,其中多位核心成員來(lái)自Google DeepMind。聯(lián)合創(chuàng)始人Ian Fischer和Shumeet Baluja均擁有資深研究背景,他們開發(fā)的元系統(tǒng)展現(xiàn)出驚人的泛化能力:在保持架構(gòu)不變的情況下,系統(tǒng)能自動(dòng)適配不同模型族的認(rèn)知風(fēng)格,實(shí)現(xiàn)跨版本性能提升。這種設(shè)計(jì)哲學(xué)獲得業(yè)界高度認(rèn)可,有專家指出,在模型外部構(gòu)建智能架構(gòu)的策略,使得新模型適配時(shí)間從數(shù)周縮短至數(shù)小時(shí),為AI技術(shù)落地開辟了新路徑。

目前團(tuán)隊(duì)正在收集更詳細(xì)的性能數(shù)據(jù),初步統(tǒng)計(jì)顯示簡(jiǎn)單任務(wù)可在8-10分鐘內(nèi)完成,而最復(fù)雜任務(wù)的計(jì)算時(shí)間控制在12小時(shí)內(nèi)。對(duì)于成本優(yōu)化機(jī)制,Poetiq確認(rèn)X-High版本確實(shí)通過更高效的推理路徑實(shí)現(xiàn)了性能突破。隨著系統(tǒng)持續(xù)迭代,這種"模型之上構(gòu)建智能"的范式,或?qū)⒅匦露x人工智能的能力邊界。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群