阿里巴巴研究揭示：AI訓(xùn)練中極少數(shù)關(guān)鍵位置驅(qū)動模型性能躍升-生活家電-虎科技

黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

手機版

虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

阿里巴巴研究揭示：AI訓(xùn)練中極少數(shù)關(guān)鍵位置驅(qū)動模型性能躍升

時間：2026-04-03 13:09 來源：天脈網(wǎng)作者：任飛揚

阿里巴巴集團Qwen Pilot團隊在國際學(xué)習(xí)表征會議（ICLR）上發(fā)表的一項突破性研究，徹底顛覆了人們對人工智能訓(xùn)練過程的傳統(tǒng)認(rèn)知。該團隊通過精密實驗發(fā)現(xiàn)，在強化學(xué)習(xí)訓(xùn)練大語言模型時，真正推動性能提升的改變僅發(fā)生在不到2%的詞匯位置，其余98%以上的訓(xùn)練過程幾乎未產(chǎn)生實質(zhì)性影響。這一發(fā)現(xiàn)猶如在AI領(lǐng)域投下一顆重磅炸彈，引發(fā)學(xué)界對機器學(xué)習(xí)機制本質(zhì)的重新思考。

研究團隊采用Jensen-Shannon散度這一數(shù)學(xué)工具，對模型訓(xùn)練前后的詞匯選擇變化進(jìn)行毫米級測量。實驗數(shù)據(jù)顯示，在使用SimpleRL訓(xùn)練方法時，僅1.7%的詞匯位置發(fā)生顯著改變；即便采用鼓勵探索的DAPO方法，這一比例也未超過7%。更令人驚訝的是，這些關(guān)鍵變化并非隨機分布，而是呈現(xiàn)明顯的位置偏好——約60%的實質(zhì)性改進(jìn)集中在文本生成的開頭和結(jié)尾部分，對應(yīng)著模型對整體思路的修正和結(jié)論的優(yōu)化。

交叉采樣實驗為這項發(fā)現(xiàn)提供了決定性證據(jù)。研究人員將強化學(xué)習(xí)模型在關(guān)鍵位置的詞匯選擇，"移植"到基礎(chǔ)模型的生成過程中，結(jié)果發(fā)現(xiàn)僅替換1.53%的詞匯，就能使基礎(chǔ)模型在數(shù)學(xué)推理測試中的準(zhǔn)確率提升近三倍。反向?qū)嶒瀯t顯示，移除同樣比例的強化學(xué)習(xí)詞匯選擇，會導(dǎo)致模型性能急劇退化。這種"四兩撥千斤"的現(xiàn)象，證明AI性能的提升高度依賴于少數(shù)關(guān)鍵決策點的精準(zhǔn)調(diào)整。

深入分析揭示，強化學(xué)習(xí)的改進(jìn)機制與人類學(xué)習(xí)存在深刻共鳴。模型更傾向于修改那些原本就存在不確定性的詞匯選擇，就像學(xué)生優(yōu)先攻克難題而非重復(fù)練習(xí)已掌握的知識。但不同訓(xùn)練方法展現(xiàn)出獨特策略：DAPO方法能夠突破模型固有認(rèn)知，對看似確定的選擇進(jìn)行重新評估；而SimpleRL則采取保守策略，專注于修正高風(fēng)險錯誤。這種差異在詞匯類型偏好上體現(xiàn)得尤為明顯——功能詞和推理術(shù)語更易發(fā)生改變，而數(shù)字和運算符則保持相對穩(wěn)定。

研究團隊通過追蹤訓(xùn)練動態(tài)發(fā)現(xiàn)，模型在初始階段會進(jìn)行廣泛探索，但隨著訓(xùn)練深入，變化逐漸聚焦于越來越小的詞匯子集。這種"先發(fā)散后收斂"的模式，與人類形成專業(yè)能力的過程驚人相似。更有趣的是，強化學(xué)習(xí)主要通過重新排序現(xiàn)有候選詞匯來優(yōu)化選擇，而非引入全新詞匯。數(shù)據(jù)顯示，約90%的強化學(xué)習(xí)首選詞匯，原本就排在基礎(chǔ)模型的前三個候選位置中。

這項發(fā)現(xiàn)正在催生新一代訓(xùn)練技術(shù)。研究團隊開發(fā)的散度加權(quán)優(yōu)勢方法，通過調(diào)節(jié)不同詞匯位置的學(xué)習(xí)信號強度，在數(shù)學(xué)推理基準(zhǔn)測試中實現(xiàn)了3.6%的準(zhǔn)確率提升。這種精準(zhǔn)干預(yù)策略，為解決AI訓(xùn)練中的效率瓶頸提供了全新思路。實驗表明，即使只強化模型在0.1%最關(guān)鍵位置的學(xué)習(xí)信號，也能帶來可測量的性能改善。

該研究對AI開發(fā)實踐產(chǎn)生深遠(yuǎn)影響。傳統(tǒng)方法需要處理數(shù)以億計的參數(shù)更新，而新發(fā)現(xiàn)提示開發(fā)者可以聚焦于識別和優(yōu)化那些真正影響性能的"決策樞紐"。這種轉(zhuǎn)變不僅將大幅降低計算資源消耗，還能提高模型行為的可解釋性——當(dāng)知道哪些詞匯選擇決定AI表現(xiàn)時，開發(fā)者就能像調(diào)試精密儀器般調(diào)整模型行為。

對于普通用戶而言，這項研究預(yù)示著AI產(chǎn)品將變得更加精準(zhǔn)可靠。當(dāng)訓(xùn)練過程從"廣撒網(wǎng)"轉(zhuǎn)向"精準(zhǔn)打擊"，AI系統(tǒng)在處理復(fù)雜任務(wù)時將減少不必要的試錯，輸出結(jié)果的質(zhì)量和一致性將顯著提升。更深遠(yuǎn)的意義在于，它揭示了智能的本質(zhì)不在于計算規(guī)模，而在于在關(guān)鍵時刻做出正確判斷的能力——這個洞見或許同樣適用于人類的學(xué)習(xí)與成長。

更多>同類內(nèi)容

虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體 - 聚合優(yōu)質(zhì)的創(chuàng)新信息與人群,捕獲精選、深度、犀利的商業(yè)科技資訊，不錯過互聯(lián)網(wǎng)的每個重要時刻。
合作微信：netspread，添加時務(wù)必注明虎科技
Copyright ? 2010-2021 HUKEJI.COM - All rights reserved. 魯ICP備11015305號-21

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

全球AI編程大模型盲測揭曉阿里Qwen3.6-Plu	法拉利電動汽車Luce內(nèi)飾曝光：艾維以實體按
信陽市人民醫(yī)院健康科普競賽：創(chuàng)意紛呈，讓	2026年錄音轉(zhuǎn)文字開會記錄APP怎么選？從高