91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

Nature頂刊新基準(zhǔn):全球頂尖AI模型在“人類終極考試”中表現(xiàn)欠佳

   發(fā)布時(shí)間:2026-03-08 02:45 作者:朱天宇

AI技術(shù)發(fā)展日新月異,從高德納對(duì)Claude破解難題的驚嘆,到數(shù)學(xué)家陶哲軒宣稱GPT-5.2 Pro解決數(shù)學(xué)難題達(dá)到博士水平,AI在各個(gè)領(lǐng)域不斷突破。然而,在被稱為“人類最后的考試”的新基準(zhǔn)測(cè)試中,即便是最先進(jìn)的AI模型也表現(xiàn)不佳,最高得分僅8%,這一結(jié)果引發(fā)了廣泛關(guān)注。

隨著AI模型能力的迅速提升,傳統(tǒng)基準(zhǔn)測(cè)試逐漸失去效力。大規(guī)模多任務(wù)語言理解(MMLU)等曾被視為高難度的評(píng)測(cè),如今AI的準(zhǔn)確率已超過90%,甚至接近“飽和”。研究人員指出,這些測(cè)試過于簡(jiǎn)單,難以真實(shí)反映AI的先進(jìn)水平,更無法確保其安全性和有效性。為了應(yīng)對(duì)這一挑戰(zhàn),全球近千名研究人員組成聯(lián)盟,開發(fā)了名為“人類最后的考試”(Humanity’s Last Exam,HLE)的新基準(zhǔn)。

HLE由AI安全中心CAIS和Scale AI團(tuán)隊(duì)共同開發(fā),包含3000個(gè)極具挑戰(zhàn)性的問題,最終篩選出2500道用于測(cè)試。這些問題覆蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語言及高度專業(yè)化的子領(lǐng)域,旨在全面評(píng)估AI的能力。每道題都經(jīng)過領(lǐng)先AI模型的測(cè)試,只有那些當(dāng)前系統(tǒng)無法解答的問題才會(huì)被保留,確保測(cè)試恰好處于AI能力邊界之外。

初步測(cè)試結(jié)果顯示,即便是最先進(jìn)的模型也難以應(yīng)對(duì)HLE的挑戰(zhàn):GPT-4o僅得2.7%,Claude 3.5 Sonnet為4.1%,而OpenAI的旗艦?zāi)P蚾1也僅取得8%的成績(jī)。這一結(jié)果凸顯了HLE的高難度,也表明當(dāng)前AI在復(fù)雜、專業(yè)化知識(shí)領(lǐng)域仍存在明顯局限。

德州農(nóng)工大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授Tung Nguyen參與了HLE的題目撰寫和完善工作,貢獻(xiàn)了73道考題,尤其在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域撰寫了大量題目。他指出,HLE的目的并非難倒人類,而是精確揭示AI目前無法完成的任務(wù)。盡管AI在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但這些測(cè)試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分,但其核心理念是設(shè)立一道人類對(duì)AI的終極考驗(yàn)——如果AI能通過,則意味著它達(dá)到了專業(yè)化人類專家的水平。

HLE的問題需要多年的專門研究才能解答,僅靠互聯(lián)網(wǎng)數(shù)據(jù)的“猜測(cè)”無法奏效。例如,考試涵蓋從核物理到古代史的廣泛領(lǐng)域,沒有人類能獨(dú)自通過整個(gè)考試,但特定領(lǐng)域的專家可以輕松回答其專業(yè)內(nèi)的問題。相比之下,AI在幾乎所有類別上都表現(xiàn)不佳,凸顯了其在深度專業(yè)知識(shí)方面的不足。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群