91精品国产成人久久-777米奇色狠狠俺去啦-91亚洲欧美强伦三区-成年午夜av在线免费观看-欧美性视频欧美欧一欧美-午夜剧场在线观看高清-国产自拍视频在线观看网址-亚洲日韩精品无码专区97-麻豆国产成人免费视频

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

阿里巴巴研究揭示:AI訓(xùn)練中極少數(shù)關(guān)鍵位置驅(qū)動(dòng)模型性能躍升

   發(fā)布時(shí)間:2026-04-03 13:09 作者:任飛揚(yáng)

阿里巴巴集團(tuán)Qwen Pilot團(tuán)隊(duì)在國(guó)際學(xué)習(xí)表征會(huì)議(ICLR)上發(fā)表的一項(xiàng)突破性研究,徹底顛覆了人們對(duì)人工智能訓(xùn)練過(guò)程的傳統(tǒng)認(rèn)知。該團(tuán)隊(duì)通過(guò)精密實(shí)驗(yàn)發(fā)現(xiàn),在強(qiáng)化學(xué)習(xí)訓(xùn)練大語(yǔ)言模型時(shí),真正推動(dòng)性能提升的改變僅發(fā)生在不到2%的詞匯位置,其余98%以上的訓(xùn)練過(guò)程幾乎未產(chǎn)生實(shí)質(zhì)性影響。這一發(fā)現(xiàn)猶如在AI領(lǐng)域投下一顆重磅炸彈,引發(fā)學(xué)界對(duì)機(jī)器學(xué)習(xí)機(jī)制本質(zhì)的重新思考。

研究團(tuán)隊(duì)采用Jensen-Shannon散度這一數(shù)學(xué)工具,對(duì)模型訓(xùn)練前后的詞匯選擇變化進(jìn)行毫米級(jí)測(cè)量。實(shí)驗(yàn)數(shù)據(jù)顯示,在使用SimpleRL訓(xùn)練方法時(shí),僅1.7%的詞匯位置發(fā)生顯著改變;即便采用鼓勵(lì)探索的DAPO方法,這一比例也未超過(guò)7%。更令人驚訝的是,這些關(guān)鍵變化并非隨機(jī)分布,而是呈現(xiàn)明顯的位置偏好——約60%的實(shí)質(zhì)性改進(jìn)集中在文本生成的開(kāi)頭和結(jié)尾部分,對(duì)應(yīng)著模型對(duì)整體思路的修正和結(jié)論的優(yōu)化。

交叉采樣實(shí)驗(yàn)為這項(xiàng)發(fā)現(xiàn)提供了決定性證據(jù)。研究人員將強(qiáng)化學(xué)習(xí)模型在關(guān)鍵位置的詞匯選擇,"移植"到基礎(chǔ)模型的生成過(guò)程中,結(jié)果發(fā)現(xiàn)僅替換1.53%的詞匯,就能使基礎(chǔ)模型在數(shù)學(xué)推理測(cè)試中的準(zhǔn)確率提升近三倍。反向?qū)嶒?yàn)則顯示,移除同樣比例的強(qiáng)化學(xué)習(xí)詞匯選擇,會(huì)導(dǎo)致模型性能急劇退化。這種"四兩撥千斤"的現(xiàn)象,證明AI性能的提升高度依賴于少數(shù)關(guān)鍵決策點(diǎn)的精準(zhǔn)調(diào)整。

深入分析揭示,強(qiáng)化學(xué)習(xí)的改進(jìn)機(jī)制與人類學(xué)習(xí)存在深刻共鳴。模型更傾向于修改那些原本就存在不確定性的詞匯選擇,就像學(xué)生優(yōu)先攻克難題而非重復(fù)練習(xí)已掌握的知識(shí)。但不同訓(xùn)練方法展現(xiàn)出獨(dú)特策略:DAPO方法能夠突破模型固有認(rèn)知,對(duì)看似確定的選擇進(jìn)行重新評(píng)估;而SimpleRL則采取保守策略,專注于修正高風(fēng)險(xiǎn)錯(cuò)誤。這種差異在詞匯類型偏好上體現(xiàn)得尤為明顯——功能詞和推理術(shù)語(yǔ)更易發(fā)生改變,而數(shù)字和運(yùn)算符則保持相對(duì)穩(wěn)定。

研究團(tuán)隊(duì)通過(guò)追蹤訓(xùn)練動(dòng)態(tài)發(fā)現(xiàn),模型在初始階段會(huì)進(jìn)行廣泛探索,但隨著訓(xùn)練深入,變化逐漸聚焦于越來(lái)越小的詞匯子集。這種"先發(fā)散后收斂"的模式,與人類形成專業(yè)能力的過(guò)程驚人相似。更有趣的是,強(qiáng)化學(xué)習(xí)主要通過(guò)重新排序現(xiàn)有候選詞匯來(lái)優(yōu)化選擇,而非引入全新詞匯。數(shù)據(jù)顯示,約90%的強(qiáng)化學(xué)習(xí)首選詞匯,原本就排在基礎(chǔ)模型的前三個(gè)候選位置中。

這項(xiàng)發(fā)現(xiàn)正在催生新一代訓(xùn)練技術(shù)。研究團(tuán)隊(duì)開(kāi)發(fā)的散度加權(quán)優(yōu)勢(shì)方法,通過(guò)調(diào)節(jié)不同詞匯位置的學(xué)習(xí)信號(hào)強(qiáng)度,在數(shù)學(xué)推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了3.6%的準(zhǔn)確率提升。這種精準(zhǔn)干預(yù)策略,為解決AI訓(xùn)練中的效率瓶頸提供了全新思路。實(shí)驗(yàn)表明,即使只強(qiáng)化模型在0.1%最關(guān)鍵位置的學(xué)習(xí)信號(hào),也能帶來(lái)可測(cè)量的性能改善。

該研究對(duì)AI開(kāi)發(fā)實(shí)踐產(chǎn)生深遠(yuǎn)影響。傳統(tǒng)方法需要處理數(shù)以億計(jì)的參數(shù)更新,而新發(fā)現(xiàn)提示開(kāi)發(fā)者可以聚焦于識(shí)別和優(yōu)化那些真正影響性能的"決策樞紐"。這種轉(zhuǎn)變不僅將大幅降低計(jì)算資源消耗,還能提高模型行為的可解釋性——當(dāng)知道哪些詞匯選擇決定AI表現(xiàn)時(shí),開(kāi)發(fā)者就能像調(diào)試精密儀器般調(diào)整模型行為。

對(duì)于普通用戶而言,這項(xiàng)研究預(yù)示著AI產(chǎn)品將變得更加精準(zhǔn)可靠。當(dāng)訓(xùn)練過(guò)程從"廣撒網(wǎng)"轉(zhuǎn)向"精準(zhǔn)打擊",AI系統(tǒng)在處理復(fù)雜任務(wù)時(shí)將減少不必要的試錯(cuò),輸出結(jié)果的質(zhì)量和一致性將顯著提升。更深遠(yuǎn)的意義在于,它揭示了智能的本質(zhì)不在于計(jì)算規(guī)模,而在于在關(guān)鍵時(shí)刻做出正確判斷的能力——這個(gè)洞見(jiàn)或許同樣適用于人類的學(xué)習(xí)與成長(zhǎng)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群