小米公司近期宣布了一項重大技術(shù)進展,正式向公眾開源了其聲音理解大模型MiDashengLM-7B。這一舉措標志著小米在AI技術(shù)研發(fā)領(lǐng)域邁出了重要一步,尤其是在聲音理解方面。
據(jù)悉,MiDashengLM-7B在多個公開評測集上刷新了多模態(tài)大模型的最佳成績,其單樣本推理的首Token延遲僅為業(yè)界先進模型的四分之一,同時在同等顯存下的數(shù)據(jù)吞吐效率更是達到了業(yè)界先進模型的20倍以上。這一卓越性能的實現(xiàn),得益于小米在音頻編碼器和自回歸解碼器方面的創(chuàng)新設計。

MiDashengLM-7B基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器,通過通用音頻描述訓練策略,實現(xiàn)了對語音、環(huán)境聲音和音樂的統(tǒng)一理解。這一跨領(lǐng)域的理解能力,使得MiDashengLM-7B不僅能夠準確識別用戶周圍的語音信息,還能深入理解環(huán)境聲音和音樂背后的含義,從而提高了用戶場景理解的泛化性。
小米表示,音頻理解是構(gòu)建全場景智能生態(tài)的關(guān)鍵領(lǐng)域。MiDashengLM-7B的推出,將進一步推動小米在智能家居、汽車座艙等領(lǐng)域的智能化進程。目前,該系列模型已經(jīng)在小米的多個產(chǎn)品中得到了應用,為用戶帶來了更加智能、便捷的交互體驗。
值得注意的是,MiDashengLM-7B的訓練數(shù)據(jù)全部來自公開數(shù)據(jù)集,涵蓋了語音識別、環(huán)境聲音、音樂理解、語音副語言和問答任務等多個領(lǐng)域。小米在數(shù)據(jù)使用和處理方面的高度透明性,也為業(yè)界提供了可復現(xiàn)的參考案例。
在性能表現(xiàn)方面,MiDashengLM-7B在音頻描述、聲音理解、音頻問答等任務中均展現(xiàn)出了明顯的優(yōu)勢。與同類7B模型相比,MiDashengLM-7B在音頻描述任務中的FENSE指標更高,聲音理解任務中的性能也更勝一籌。在語音識別任務中,MiDashengLM-7B在GigaSpeech 2數(shù)據(jù)集上的表現(xiàn)尤為突出。
除了卓越的性能表現(xiàn)外,MiDashengLM-7B在推理效率方面也取得了顯著提升。對于單個樣本推理的情形,MiDashengLM-7B的首個token預測時間僅為Qwen2.5-Omni-7B的四分之一。在批次處理時,MiDashengLM-7B能夠在80GB GPU上處理更大的batch size,從而提高了數(shù)據(jù)吞吐效率。
這一系列優(yōu)勢的背后,是小米在音頻編碼器設計方面的優(yōu)化和創(chuàng)新。通過降低音頻編碼器的輸出幀率,小米成功降低了計算負載,實現(xiàn)了推理效率的提升。這一創(chuàng)新設計不僅提高了MiDashengLM-7B的性能表現(xiàn),也為業(yè)界提供了有益的參考和借鑒。
MiDashengLM-7B還采用了通用音頻描述對齊范式進行訓練。這一范式避免了傳統(tǒng)ASR轉(zhuǎn)錄數(shù)據(jù)對齊方法的局限性,能夠迫使模型學習音頻場景的深層語義關(guān)聯(lián)。同時,小米還利用多專家分析管道生成訓練數(shù)據(jù),對原始音頻進行細粒度標注,從而提高了模型的訓練效果。
小米表示,未來將繼續(xù)對Xiaomi Dasheng系列模型進行升級和優(yōu)化,尋求在終端設備上實現(xiàn)離線部署。這將進一步推動小米在AI技術(shù)研發(fā)領(lǐng)域的領(lǐng)先地位,為用戶提供更加智能、便捷的交互體驗。















