小米開源MiDashengLM-7B大模型，刷新22項評測記錄，引領(lǐng)音頻理解新潮流-關(guān)于我們-虎科技

小米公司近期宣布了一項重大技術(shù)進展，正式向公眾開源了其聲音理解大模型MiDashengLM-7B。這一舉措標志著小米在AI技術(shù)研發(fā)領(lǐng)域邁出了重要一步，尤其是在聲音理解方面。

據(jù)悉，MiDashengLM-7B在多個公開評測集上刷新了多模態(tài)大模型的最佳成績，其單樣本推理的首Token延遲僅為業(yè)界先進模型的四分之一，同時在同等顯存下的數(shù)據(jù)吞吐效率更是達到了業(yè)界先進模型的20倍以上。這一卓越性能的實現(xiàn)，得益于小米在音頻編碼器和自回歸解碼器方面的創(chuàng)新設計。

MiDashengLM-7B基于Xiaomi Dasheng音頻編碼器和Qwen2.5-Omni-7B Thinker自回歸解碼器，通過通用音頻描述訓練策略，實現(xiàn)了對語音、環(huán)境聲音和音樂的統(tǒng)一理解。這一跨領(lǐng)域的理解能力，使得MiDashengLM-7B不僅能夠準確識別用戶周圍的語音信息，還能深入理解環(huán)境聲音和音樂背后的含義，從而提高了用戶場景理解的泛化性。

小米表示，音頻理解是構(gòu)建全場景智能生態(tài)的關(guān)鍵領(lǐng)域。MiDashengLM-7B的推出，將進一步推動小米在智能家居、汽車座艙等領(lǐng)域的智能化進程。目前，該系列模型已經(jīng)在小米的多個產(chǎn)品中得到了應用，為用戶帶來了更加智能、便捷的交互體驗。

值得注意的是，MiDashengLM-7B的訓練數(shù)據(jù)全部來自公開數(shù)據(jù)集，涵蓋了語音識別、環(huán)境聲音、音樂理解、語音副語言和問答任務等多個領(lǐng)域。小米在數(shù)據(jù)使用和處理方面的高度透明性，也為業(yè)界提供了可復現(xiàn)的參考案例。

在性能表現(xiàn)方面，MiDashengLM-7B在音頻描述、聲音理解、音頻問答等任務中均展現(xiàn)出了明顯的優(yōu)勢。與同類7B模型相比，MiDashengLM-7B在音頻描述任務中的FENSE指標更高，聲音理解任務中的性能也更勝一籌。在語音識別任務中，MiDashengLM-7B在GigaSpeech 2數(shù)據(jù)集上的表現(xiàn)尤為突出。

除了卓越的性能表現(xiàn)外，MiDashengLM-7B在推理效率方面也取得了顯著提升。對于單個樣本推理的情形，MiDashengLM-7B的首個token預測時間僅為Qwen2.5-Omni-7B的四分之一。在批次處理時，MiDashengLM-7B能夠在80GB GPU上處理更大的batch size，從而提高了數(shù)據(jù)吞吐效率。

這一系列優(yōu)勢的背后，是小米在音頻編碼器設計方面的優(yōu)化和創(chuàng)新。通過降低音頻編碼器的輸出幀率，小米成功降低了計算負載，實現(xiàn)了推理效率的提升。這一創(chuàng)新設計不僅提高了MiDashengLM-7B的性能表現(xiàn)，也為業(yè)界提供了有益的參考和借鑒。

MiDashengLM-7B還采用了通用音頻描述對齊范式進行訓練。這一范式避免了傳統(tǒng)ASR轉(zhuǎn)錄數(shù)據(jù)對齊方法的局限性，能夠迫使模型學習音頻場景的深層語義關(guān)聯(lián)。同時，小米還利用多專家分析管道生成訓練數(shù)據(jù)，對原始音頻進行細粒度標注，從而提高了模型的訓練效果。

小米表示，未來將繼續(xù)對Xiaomi Dasheng系列模型進行升級和優(yōu)化，尋求在終端設備上實現(xiàn)離線部署。這將進一步推動小米在AI技術(shù)研發(fā)領(lǐng)域的領(lǐng)先地位，為用戶提供更加智能、便捷的交互體驗。