黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

阿里巴巴研究揭示:AI訓(xùn)練中極少數(shù)關(guān)鍵位置驅(qū)動模型性能躍升

   時間:2026-04-03 13:09 來源:天脈網(wǎng)作者:任飛揚

阿里巴巴集團Qwen Pilot團隊在國際學(xué)習(xí)表征會議(ICLR)上發(fā)表的一項突破性研究,徹底顛覆了人們對人工智能訓(xùn)練過程的傳統(tǒng)認(rèn)知。該團隊通過精密實驗發(fā)現(xiàn),在強化學(xué)習(xí)訓(xùn)練大語言模型時,真正推動性能提升的改變僅發(fā)生在不到2%的詞匯位置,其余98%以上的訓(xùn)練過程幾乎未產(chǎn)生實質(zhì)性影響。這一發(fā)現(xiàn)猶如在AI領(lǐng)域投下一顆重磅炸彈,引發(fā)學(xué)界對機器學(xué)習(xí)機制本質(zhì)的重新思考。

研究團隊采用Jensen-Shannon散度這一數(shù)學(xué)工具,對模型訓(xùn)練前后的詞匯選擇變化進(jìn)行毫米級測量。實驗數(shù)據(jù)顯示,在使用SimpleRL訓(xùn)練方法時,僅1.7%的詞匯位置發(fā)生顯著改變;即便采用鼓勵探索的DAPO方法,這一比例也未超過7%。更令人驚訝的是,這些關(guān)鍵變化并非隨機分布,而是呈現(xiàn)明顯的位置偏好——約60%的實質(zhì)性改進(jìn)集中在文本生成的開頭和結(jié)尾部分,對應(yīng)著模型對整體思路的修正和結(jié)論的優(yōu)化。

交叉采樣實驗為這項發(fā)現(xiàn)提供了決定性證據(jù)。研究人員將強化學(xué)習(xí)模型在關(guān)鍵位置的詞匯選擇,"移植"到基礎(chǔ)模型的生成過程中,結(jié)果發(fā)現(xiàn)僅替換1.53%的詞匯,就能使基礎(chǔ)模型在數(shù)學(xué)推理測試中的準(zhǔn)確率提升近三倍。反向?qū)嶒瀯t顯示,移除同樣比例的強化學(xué)習(xí)詞匯選擇,會導(dǎo)致模型性能急劇退化。這種"四兩撥千斤"的現(xiàn)象,證明AI性能的提升高度依賴于少數(shù)關(guān)鍵決策點的精準(zhǔn)調(diào)整。

深入分析揭示,強化學(xué)習(xí)的改進(jìn)機制與人類學(xué)習(xí)存在深刻共鳴。模型更傾向于修改那些原本就存在不確定性的詞匯選擇,就像學(xué)生優(yōu)先攻克難題而非重復(fù)練習(xí)已掌握的知識。但不同訓(xùn)練方法展現(xiàn)出獨特策略:DAPO方法能夠突破模型固有認(rèn)知,對看似確定的選擇進(jìn)行重新評估;而SimpleRL則采取保守策略,專注于修正高風(fēng)險錯誤。這種差異在詞匯類型偏好上體現(xiàn)得尤為明顯——功能詞和推理術(shù)語更易發(fā)生改變,而數(shù)字和運算符則保持相對穩(wěn)定。

研究團隊通過追蹤訓(xùn)練動態(tài)發(fā)現(xiàn),模型在初始階段會進(jìn)行廣泛探索,但隨著訓(xùn)練深入,變化逐漸聚焦于越來越小的詞匯子集。這種"先發(fā)散后收斂"的模式,與人類形成專業(yè)能力的過程驚人相似。更有趣的是,強化學(xué)習(xí)主要通過重新排序現(xiàn)有候選詞匯來優(yōu)化選擇,而非引入全新詞匯。數(shù)據(jù)顯示,約90%的強化學(xué)習(xí)首選詞匯,原本就排在基礎(chǔ)模型的前三個候選位置中。

這項發(fā)現(xiàn)正在催生新一代訓(xùn)練技術(shù)。研究團隊開發(fā)的散度加權(quán)優(yōu)勢方法,通過調(diào)節(jié)不同詞匯位置的學(xué)習(xí)信號強度,在數(shù)學(xué)推理基準(zhǔn)測試中實現(xiàn)了3.6%的準(zhǔn)確率提升。這種精準(zhǔn)干預(yù)策略,為解決AI訓(xùn)練中的效率瓶頸提供了全新思路。實驗表明,即使只強化模型在0.1%最關(guān)鍵位置的學(xué)習(xí)信號,也能帶來可測量的性能改善。

該研究對AI開發(fā)實踐產(chǎn)生深遠(yuǎn)影響。傳統(tǒng)方法需要處理數(shù)以億計的參數(shù)更新,而新發(fā)現(xiàn)提示開發(fā)者可以聚焦于識別和優(yōu)化那些真正影響性能的"決策樞紐"。這種轉(zhuǎn)變不僅將大幅降低計算資源消耗,還能提高模型行為的可解釋性——當(dāng)知道哪些詞匯選擇決定AI表現(xiàn)時,開發(fā)者就能像調(diào)試精密儀器般調(diào)整模型行為。

對于普通用戶而言,這項研究預(yù)示著AI產(chǎn)品將變得更加精準(zhǔn)可靠。當(dāng)訓(xùn)練過程從"廣撒網(wǎng)"轉(zhuǎn)向"精準(zhǔn)打擊",AI系統(tǒng)在處理復(fù)雜任務(wù)時將減少不必要的試錯,輸出結(jié)果的質(zhì)量和一致性將顯著提升。更深遠(yuǎn)的意義在于,它揭示了智能的本質(zhì)不在于計算規(guī)模,而在于在關(guān)鍵時刻做出正確判斷的能力——這個洞見或許同樣適用于人類的學(xué)習(xí)與成長。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群