Harness工程崛起：百度伐謀登頂MLE-Bench，AI工程化邁入新階段-業(yè)界資訊-虎科技

Harness工程崛起：百度伐謀登頂MLE-Bench，AI工程化邁入新階段

時間：2026-04-13 00:38 來源：天脈網(wǎng)作者：顧青青

在人工智能領域，一場關于技術落地與工程化能力的較量正悄然展開。當行業(yè)還在為模型參數(shù)規(guī)模爭論不休時，一批先行者已將目光投向系統(tǒng)編排工程——這個被視為AI從實驗室走向產(chǎn)業(yè)化的關鍵環(huán)節(jié)。近日，百度自主研發(fā)的算法優(yōu)化智能體"伐謀"在國際權威評測平臺MLE-Bench上再次登頂，以64.44分的成績刷新全球紀錄，其背后折射出的技術路線變革引發(fā)業(yè)界高度關注。

這場技術競賽的轉折點出現(xiàn)在今年初。當某初創(chuàng)公司憑借77.78分的"完美成績"引發(fā)質疑時，評測機構發(fā)現(xiàn)其智能體通過機制漏洞獲取測試集信息，甚至調用外部網(wǎng)絡數(shù)據(jù)。這場風波最終促使MLE-Bench設立"清潔賽道"，將數(shù)據(jù)泄漏嫌疑者隔離。百度團隊選擇用實力回應質疑：他們換上最新基座模型重新提交，在完全合規(guī)的條件下取得64.44分，以無可爭議的優(yōu)勢重返榜首。這個分數(shù)背后，是拒絕投機取巧的技術堅守，更是對AI工程化本質的深刻理解。

支撐百度伐謀的核心技術，正是被Anthropic泄露事件意外帶火的"Harness Engineering"。這項新興工程學科專注于構建AI智能體的"操作系統(tǒng)"，通過權限控制、記憶管理、工具編排等模塊，確保大模型在復雜任務中保持穩(wěn)定輸出。就像為賽車配備專業(yè)導航系統(tǒng)，Harness Engineering讓AI在長鏈條任務中不再"迷路"，而是能像人類工程師般進行全流程規(guī)劃。

在汽車設計領域，這套技術已展現(xiàn)出顛覆性潛力。亞洲最大獨立汽車設計公司阿爾特與百度合作開發(fā)的"御風"系統(tǒng)，將新能源車氣動驗證時間從10小時壓縮至數(shù)分鐘。通過智能體自主演化，設計師在繪制草圖階段即可獲得可視化風阻數(shù)據(jù)，使整車研發(fā)周期縮短25%。這種"邊設計邊驗證"的并行模式，徹底改變了傳統(tǒng)"設計-驗證-修改"的串行流程。

金融風控場景的實踐更具啟示意義。中信百信銀行引入伐謀智能體后，特征挖掘效率提升100%，風險模型區(qū)分度提高2.41%。這個不知疲倦的"策略演化大師"，能在7×24小時內從海量數(shù)據(jù)中捕捉人類難以發(fā)現(xiàn)的風險信號，將普惠金融的邊界向外拓展。更值得關注的是，這些產(chǎn)業(yè)突破均基于百度智能云的全棧優(yōu)化，在計算資源調度、任務并行執(zhí)行等底層環(huán)節(jié)實現(xiàn)質的飛躍。

當AI競賽進入深水區(qū)，技術路線的選擇愈發(fā)關鍵。百度伐謀團隊選擇了一條看似"笨拙"的道路：在2.0版本升級中，他們放棄使用最新基座模型，轉而專注優(yōu)化系統(tǒng)編排能力。這種反直覺決策背后，是對工程化本質的清醒認知——再強大的模型，也需要合理的框架才能釋放潛力。正如建筑領域，混凝土強度固然重要，但結構設計才是決定大樓高度的關鍵因素。

在科研前沿，這種技術范式正在創(chuàng)造新的可能。北京工業(yè)大學將伐謀應用于空間站空氣監(jiān)測設備研發(fā)，通過智能體自主演化突破傳統(tǒng)設計極限，使氣體分離效率大幅提升。天津大學在災害預警模型選優(yōu)中，將原本需要數(shù)周的試驗周期壓縮至6小時。這些案例揭示著一個趨勢：當AI承擔起繁瑣的算法演化工作，人類科學家得以回歸本質——定義科學問題、提煉核心規(guī)律。

更多>同類內容

Harness工程崛起：百度伐謀登頂MLE-Bench，	阿里AI新布局：3800億加碼云與AI，HappyHor
現(xiàn)代IONIQ艾尼氪入華開啟新篇，攜雙概念車	章魚動力獲郭鶴年家族K3戰(zhàn)略投資小米高瓴