林俊旸離職發(fā)文：剖析千問融合困境，預(yù)言AI大模型將邁向智能體思考時代-生活家電-虎科技

林俊旸離職發(fā)文：剖析千問融合困境，預(yù)言AI大模型將邁向智能體思考時代

時間：2026-03-27 16:27 來源：天脈網(wǎng)作者：顧雨柔

前阿里千問技術(shù)負責(zé)人林俊旸在離職后發(fā)布的長文中，對AI大模型領(lǐng)域的技術(shù)演進方向作出重要判斷。他指出，當(dāng)前行業(yè)正經(jīng)歷從"推理型思考"向"智能體思考"的關(guān)鍵轉(zhuǎn)型，這一轉(zhuǎn)變標志著大模型發(fā)展進入全新階段。以O(shè)penAI o1和DeepSeek-R1為代表的推理模型浪潮，推動行業(yè)從單純擴大預(yù)訓(xùn)練規(guī)模轉(zhuǎn)向強化學(xué)習(xí)后訓(xùn)練規(guī)模的突破，數(shù)學(xué)驗證與代碼生成等可量化領(lǐng)域成為檢驗?zāi)Ｐ蜏蚀_性的核心場景。

在技術(shù)實踐層面，林俊旸披露了千問團隊在Qwen3研發(fā)過程中遭遇的架構(gòu)矛盾。團隊嘗試構(gòu)建融合指令模式與思考模式的混合系統(tǒng)時發(fā)現(xiàn)，指令模型追求的極簡架構(gòu)與低延遲特性，與思考模型所需的復(fù)雜推演存在根本沖突。這種矛盾在數(shù)據(jù)分布層面尤為突出——指令模型依賴簡潔指令數(shù)據(jù)，而思考模型需要海量推演數(shù)據(jù)支撐。當(dāng)團隊試圖通過數(shù)據(jù)篩選實現(xiàn)融合時，最終導(dǎo)致模型在基礎(chǔ)指令處理和復(fù)雜推理任務(wù)中均表現(xiàn)平平。基于商業(yè)客戶對處理效率與成本控制的雙重需求，Qwen2507版本最終選擇推出30B與235B分離的指令模型與思考模型變體。

對比行業(yè)其他探索路徑，Anthropic與DeepSeek等企業(yè)仍在推進推理與工具調(diào)用的統(tǒng)一架構(gòu)研發(fā)。但林俊旸強調(diào)，隨著智能體強化學(xué)習(xí)（Agentic RL）技術(shù)棧的成熟，傳統(tǒng)訓(xùn)練推理耦合模式將面臨顛覆。當(dāng)大模型開始具備調(diào)用搜索引擎、執(zhí)行代碼等環(huán)境交互能力時，如何防止模型通過操縱環(huán)境反饋獲取虛假獎勵（Reward Hacking）將成為關(guān)鍵挑戰(zhàn)。這種技術(shù)范式轉(zhuǎn)變要求開發(fā)者將核心競爭力從算法創(chuàng)新轉(zhuǎn)向系統(tǒng)工程能力，包括構(gòu)建高質(zhì)量交互環(huán)境、設(shè)計防作弊驗證機制以及協(xié)調(diào)多智能體協(xié)作體系。在智能體思考時代，模型性能的競爭將延伸至工具鏈整合、環(huán)境模擬精度等維度，形成全新的技術(shù)護城河。

更多>同類內(nèi)容

林俊旸離職發(fā)文：剖析千問融合困境，預(yù)言AI	石嘴山“四普”進行時：踏遍山河尋古跡喚
預(yù)算有限如何挑耳夾式耳機？三款高性價比之	AI與Agent雙輪驅(qū)動百度袁佛玉解碼全球南方