DeepSeek V4參數量或創(chuàng)新高 1.6T預期下性能蛻變引期待-軟件產品-虎科技

DeepSeek V4參數量或創(chuàng)新高 1.6T預期下性能蛻變引期待

時間：2026-04-17 23:42 來源：互聯網作者：顧雨柔

近日，科技圈因DeepSeek公司研究人員對DeepGEMM算子庫的更新而掀起熱議。此次更新被外界視為DeepSeek V4大模型即將發(fā)布的重要信號，盡管研究人員隨后澄清此次更新僅與DeepGEMM開發(fā)相關，與內部模型發(fā)布并無關聯，但這一聲明反而進一步激發(fā)了公眾對V4大模型的好奇與期待。

DeepGEMM算子庫此次更新亮點頗多，不僅支持了FP8_FP4混合算子，還優(yōu)化了對NVIDIA Blackwell架構的支持。更引人注目的是，其架構升級引入了Mega MoE及HyperConnection技術。其中，Mega MoE被視為MoE架構的一次重大革新，有望帶來顯著的性能提升。

據Gemini的解析暗示，DeepSeek V4大模型的激活專家數量將遠超V3的256個，可能達到數千個。這一提升不僅將極大地增強模型的性能，還能保持靈活性，避免對算力和顯存產生過高需求。這一特性使得V4大模型在處理復雜任務時更具優(yōu)勢，成為業(yè)界關注的焦點。

除了架構升級，DeepGEMM的更新還為外界提供了關于V4大模型參數量的線索。網友根據更新內容推測，單層MoE的參數量約為25.37B。若按60層計算，V4大模型的參數量可能達到1.6T；即使按48層計算，參數量也至少為1.25T。這一數據遠超此前關于V4為1T萬億參數的傳聞，顯示出其性能表現可能超出預期。

若V4大模型最終實現1.6T參數量，其性能將比預期提升60%，無疑將成為科技領域的一大亮點。即便未能達到這一目標，1.25T的參數量也意味著其性能將比當前V3的6700億參數量翻倍。結合Mega MoE技術帶來的數千個激活專家，V4大模型有望成為MoE架構大模型發(fā)展中的里程碑事件，推動整個行業(yè)向前邁進。

更多>同類內容

阿里HappyHorse攪局AI視頻圈，字節(jié)緊急調整	京東發(fā)力具身智能：建全鏈路設施，破數據困
它石智航Pre-A輪融資超30億估值180億，具身	阿里巴巴旗下高德ABot-PhysWorld登頂WorldA