久久亚洲av成人无码国产电影,乱码精品综合一区二区

Nature頂刊新基準(zhǔn)：全球頂尖AI模型在“人類終極考試”中表現(xiàn)欠佳

發(fā)布時(shí)間：2026-03-08 02:45 來源：快訊作者：朱天宇

AI技術(shù)發(fā)展日新月異，從高德納對(duì)Claude破解難題的驚嘆，到數(shù)學(xué)家陶哲軒宣稱GPT-5.2 Pro解決數(shù)學(xué)難題達(dá)到博士水平，AI在各個(gè)領(lǐng)域不斷突破。然而，在被稱為“人類最后的考試”的新基準(zhǔn)測(cè)試中，即便是最先進(jìn)的AI模型也表現(xiàn)不佳，最高得分僅8%，這一結(jié)果引發(fā)了廣泛關(guān)注。

隨著AI模型能力的迅速提升，傳統(tǒng)基準(zhǔn)測(cè)試逐漸失去效力。大規(guī)模多任務(wù)語言理解（MMLU）等曾被視為高難度的評(píng)測(cè)，如今AI的準(zhǔn)確率已超過90%，甚至接近“飽和”。研究人員指出，這些測(cè)試過于簡(jiǎn)單，難以真實(shí)反映AI的先進(jìn)水平，更無法確保其安全性和有效性。為了應(yīng)對(duì)這一挑戰(zhàn)，全球近千名研究人員組成聯(lián)盟，開發(fā)了名為“人類最后的考試”（Humanity’s Last Exam，HLE）的新基準(zhǔn)。

HLE由AI安全中心CAIS和Scale AI團(tuán)隊(duì)共同開發(fā)，包含3000個(gè)極具挑戰(zhàn)性的問題，最終篩選出2500道用于測(cè)試。這些問題覆蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語言及高度專業(yè)化的子領(lǐng)域，旨在全面評(píng)估AI的能力。每道題都經(jīng)過領(lǐng)先AI模型的測(cè)試，只有那些當(dāng)前系統(tǒng)無法解答的問題才會(huì)被保留，確保測(cè)試恰好處于AI能力邊界之外。

初步測(cè)試結(jié)果顯示，即便是最先進(jìn)的模型也難以應(yīng)對(duì)HLE的挑戰(zhàn)：GPT-4o僅得2.7%，Claude 3.5 Sonnet為4.1%，而OpenAI的旗艦?zāi)Ｐ蚾1也僅取得8%的成績(jī)。這一結(jié)果凸顯了HLE的高難度，也表明當(dāng)前AI在復(fù)雜、專業(yè)化知識(shí)領(lǐng)域仍存在明顯局限。

德州農(nóng)工大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授Tung Nguyen參與了HLE的題目撰寫和完善工作，貢獻(xiàn)了73道考題，尤其在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域撰寫了大量題目。他指出，HLE的目的并非難倒人類，而是精確揭示AI目前無法完成的任務(wù)。盡管AI在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，但這些測(cè)試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分，但其核心理念是設(shè)立一道人類對(duì)AI的終極考驗(yàn)——如果AI能通過，則意味著它達(dá)到了專業(yè)化人類專家的水平。

HLE的問題需要多年的專門研究才能解答，僅靠互聯(lián)網(wǎng)數(shù)據(jù)的“猜測(cè)”無法奏效。例如，考試涵蓋從核物理到古代史的廣泛領(lǐng)域，沒有人類能獨(dú)自通過整個(gè)考試，但特定領(lǐng)域的專家可以輕松回答其專業(yè)內(nèi)的問題。相比之下，AI在幾乎所有類別上都表現(xiàn)不佳，凸顯了其在深度專業(yè)知識(shí)方面的不足。

更多>同類內(nèi)容

91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

Nature頂刊新基準(zhǔn)：全球頂尖AI模型在“人類終極考試”中表現(xiàn)欠佳