黄色三级不卡在线观看-男男视频网站高清观看-久久国产欧美韩国精品app-免费观看妇女A级视频-中文字幕一区二区三区人妻在线视频-国产精选av一区二区-欧美亚洲精品不卡一区二区-99女福利女女视频在线播放-国产美女香蕉久久精品

  • 虎科技 - 領先的互聯(lián)網科技媒體

蘋果新研究:MTP技術讓iPhone AI響應速度最高提升5倍

   時間:2025-08-09 19:20 來源:ITBEAR作者:顧雨柔

蘋果公司在最新研究中取得突破性進展,推出了一項名為“多token預測”(MTP)的技術。這項技術旨在顯著提升大語言模型的響應速度,同時保持輸出質量不受影響。據科技媒體9to5Mac報道,MTP技術能夠將大語言模型的響應速度提高2至3倍,在特定場景下甚至可以達到5倍的提升。

傳統(tǒng)的大語言模型在生成文本時,通常采用自回歸方式,即逐個輸出token。這種方式雖然保證了文本的連貫性,但每一步都依賴于前序內容,導致生成速度受限。例如,在生成句子“The cat is black”時,模型需要在輸出“is”后,基于上下文和訓練經驗,從詞匯表中計算“black”等候選詞的概率,再選擇最合適的詞。這種串行機制在移動設備上尤為影響用戶體驗。

然而,蘋果的研究團隊在最新論文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中發(fā)現(xiàn),盡管模型被訓練為預測下一個詞,但其內部實際上具備對后續(xù)多個詞的潛在判斷能力。基于這一發(fā)現(xiàn),研究團隊提出了MTP框架,支持模型一次生成多個詞,從而大幅提升生成效率。

MTP技術的核心在于引入“掩碼”(Mask)token作為占位符,并讓模型并行推測后續(xù)多個詞。每個推測結果會立即與標準自回歸解碼結果進行對比,如果不符,則自動回退到逐詞生成模式,以確保輸出質量不受影響。這種“推測-驗證”機制在提速的同時,保留了傳統(tǒng)方法的準確性,實現(xiàn)了速度與質量的平衡。

為了驗證MTP技術的有效性,研究團隊基于開源模型Tulu3-8B進行了實驗。實驗中,蘋果訓練模型最多推測8個后續(xù)token。結果顯示,在問答和對話等通用任務中,響應速度平均提升了2至3倍;在代碼生成、數(shù)學推理等結構化場景中,提速更是達到了5倍。這一性能提升并未以犧牲生成質量為代價,關鍵在于采用了“門控LoRA適配”技術,動態(tài)調節(jié)參數(shù),僅在需要時激活推測模塊。

MTP技術的推出為設備端大模型部署提供了新的路徑。相比依賴云端計算,MTP技術可以在iPhone、Mac等本地設備上實現(xiàn)更快響應,降低延遲和能耗。這一技術兼容現(xiàn)有模型架構,具備較強的落地潛力。未來,蘋果或將MTP技術集成至Siri、Apple Intelligence等產品中,進一步提升用戶交互體驗。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群