XM外匯官網(wǎng)訊——
【小米開(kāi)源首個(gè)原生端到端語(yǔ)音模型】
9月19日,小米小米推出了其首個(gè)原生端到端語(yǔ)音模型——Xiaomi-MiMo-Audio。開(kāi)源該模型基于創(chuàng )新的原生音預訓練架構和超過(guò)億小時(shí)的訓練數據,實(shí)現了在語(yǔ)音領(lǐng)域的端到端語(yǔ)少樣本泛化,并展現出顯著(zhù)的模型“涌現”行為。根據介紹,小米MiMo-Audio在通用語(yǔ)音理解和對話(huà)等多個(gè)標準評測基準上表現出色,開(kāi)源性能遠超同等參數的原生音開(kāi)源模型,達到了7B的端到端語(yǔ)最佳表現;在音頻理解基準MMAU的標準測試集上,其表現超過(guò)了Google的模型閉源模型Gemini-2.5-Flash;在面向復雜音頻推理的基準Big Bench Audio S2T任務(wù)中,MiMo-Audio同樣優(yōu)于OpenAI的小米閉源語(yǔ)音模型GPT-4o-Audio-Preview。
開(kāi)源