蘋果新研究：MTP技術讓iPhone AI響應速度最高提升5倍

時間：2025-08-09 19:20 來源：ITBEAR作者：顧雨柔

蘋果公司在最新研究中取得突破性進展，推出了一項名為“多token預測”（MTP）的技術。這項技術旨在顯著提升大語言模型的響應速度，同時保持輸出質量不受影響。據科技媒體9to5Mac報道，MTP技術能夠將大語言模型的響應速度提高2至3倍，在特定場景下甚至可以達到5倍的提升。

傳統(tǒng)的大語言模型在生成文本時，通常采用自回歸方式，即逐個輸出token。這種方式雖然保證了文本的連貫性，但每一步都依賴于前序內容，導致生成速度受限。例如，在生成句子“The cat is black”時，模型需要在輸出“is”后，基于上下文和訓練經驗，從詞匯表中計算“black”等候選詞的概率，再選擇最合適的詞。這種串行機制在移動設備上尤為影響用戶體驗。

然而，蘋果的研究團隊在最新論文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中發(fā)現(xiàn)，盡管模型被訓練為預測下一個詞，但其內部實際上具備對后續(xù)多個詞的潛在判斷能力。基于這一發(fā)現(xiàn)，研究團隊提出了MTP框架，支持模型一次生成多個詞，從而大幅提升生成效率。

MTP技術的核心在于引入“掩碼”（Mask）token作為占位符，并讓模型并行推測后續(xù)多個詞。每個推測結果會立即與標準自回歸解碼結果進行對比，如果不符，則自動回退到逐詞生成模式，以確保輸出質量不受影響。這種“推測-驗證”機制在提速的同時，保留了傳統(tǒng)方法的準確性，實現(xiàn)了速度與質量的平衡。

為了驗證MTP技術的有效性，研究團隊基于開源模型Tulu3-8B進行了實驗。實驗中，蘋果訓練模型最多推測8個后續(xù)token。結果顯示，在問答和對話等通用任務中，響應速度平均提升了2至3倍；在代碼生成、數(shù)學推理等結構化場景中，提速更是達到了5倍。這一性能提升并未以犧牲生成質量為代價，關鍵在于采用了“門控LoRA適配”技術，動態(tài)調節(jié)參數(shù)，僅在需要時激活推測模塊。

MTP技術的推出為設備端大模型部署提供了新的路徑。相比依賴云端計算，MTP技術可以在iPhone、Mac等本地設備上實現(xiàn)更快響應，降低延遲和能耗。這一技術兼容現(xiàn)有模型架構，具備較強的落地潛力。未來，蘋果或將MTP技術集成至Siri、Apple Intelligence等產品中，進一步提升用戶交互體驗。

更多>同類內容