• 虎科技 - 領先的互聯網科技媒體

華為云Tokens服務升級,384超節點助力實現2400TPS高性能算力

   時間:2025-08-28 08:10 來源:ITBEAR作者:顧雨柔

在第四屆828 B2B企業節的盛大開幕式上,華為云公布了一項重大進展:其Tokens服務已成功融入CloudMatrix384超節點體系。這一融合得益于xDeepServe架構的革新,使得單芯片的處理能力突飛猛進,達到了前所未有的2400TPS(每秒事務處理數),同時保持了50ms的TPOT(任務處理總時間),這一成績遠超當前行業標準。

面對中國AI算力需求的爆炸式增長,華為云展現出其“全棧創新”的實力。數據顯示,從2024年初至2025年6月底,中國日均Token消耗量從1000億飆升至30萬億,這一300多倍的增長凸顯了人工智能應用的迅猛擴張,也對算力基礎設施提出了更高要求。

早在今年3月,華為云便推出了基于MaaS(模型即服務)的Tokens服務,旨在滿足不同應用與場景的性能和時延需求。該服務提供多種規格,如在線版、進線版、離線版及尊享版,為大模型和Agent智能體等AI工具提供了靈活、高效且成本優化的算力解決方案。

此次,Tokens服務與CloudMatrix384超節點的結合,通過xDeepServe框架的再次升級,將吞吐量從年初的1920TPS提升至2400TPS,TPOT則縮短至50ms。這一成就背后,是華為云從硬件到軟件、從算子到存儲、從推理框架到超節點的全方位技術創新。

CloudMatrix384超節點以其獨特的計算架構,打破了性能瓶頸,奠定了堅實的算力基礎。同時,CANN(昇騰計算架構)硬件使能技術優化了算子與通信策略,使得云端算力得以高效調用。EMS彈性內存存儲則打破了AI內存墻,實現了“以存強算”,進一步釋放了芯片算力。而xDeepServe分布式推理框架,則通過Transformerless的極致分離架構,讓超節點能夠釋放出更高效的算力。

xDeepServe將MoE大模型拆解為可獨立伸縮的Attention、FFN、Expert三個微模塊,這些“積木”被分配到不同的NPU上同步處理任務,然后通過高效的XCCL通信庫與FlowServe自研推理引擎重新組合,形成超高吞吐量的LLM服務平臺。這一創新架構,使得單卡吞吐量從600tokens/s躍升至2400tokens/s。

XCCL作為專為超節點上的大語言模型服務設計的高性能通信庫,充分發揮了CloudMatrix384的UB互聯架構潛力,為Transformerless的全面分離提供了堅實的帶寬與時延支持。而FlowServe作為“去中心”式分布式引擎,將CloudMatrix384劃分為完全自治的DP小組,每個小組自給自足,確保了千卡并發時的流暢運行。

華為云MaaS服務目前已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify等主流Agent平臺。通過大量的模型性能優化與效果調優,華為云實現了“源于開源,高于開源”,讓大模型在昇騰云上展現出更卓越的性能。例如,在文生圖大模型上,通過量化與融合算子等技術,華為云MaaS平臺在輕微損失畫質的情況下,實現了出圖速度的兩倍提升,最大支持2K×2K尺寸。在文生視頻大模型上,則通過量化與通算并行等方式,大幅提升了視頻生成速度,相較于競爭對手實現了3.5倍的性能優勢。

在應用層面,華為云已與超過100家合作伙伴攜手,深入行業場景,共同開發豐富的Agent應用。這些應用覆蓋了調研分析、內容創作、智慧辦公、智能運維等多個領域,解決了眾多產業難題,幫助企業更便捷地擁抱AI創新,加速智能化轉型。例如,基于MaaS平臺推出的今日人才數智員工解決方案,集成了先進的自然語言處理、機器學習和深度學習技術,能夠智能交互并處理任務,顯著提升服務效率與客戶滿意度。而北京方寸無憂科技開發的無憂智慧公文解決方案,則提升了公文處理效能,推動了政企辦公的智能化轉型。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群