8 月 29 日消息,周四,微軟人工智能部門正式推出其首批兩款自研 AI 模型 ——MAI-Voice-1 語音模型與 MAI-1-preview 通用模型。據(jù)微軟介紹,全新的 MAI-Voice-1 語音模型僅需單塊 GPU,就能在 1 秒內(nèi)生成時長 1 分鐘的音頻;而 MAI-1-preview 模型則“讓用戶提前窺見 Copilot 未來功能的發(fā)展方向”。
目前,微軟已將 MAI-Voice-1 應用于多項功能中:例如在“Copilot Daily”功能里,AI 主持人會通過該模型播報當日熱點新聞;同時,它還能生成播客風格的對話內(nèi)容,幫助用戶理解各類話題。
普通用戶可在 Copilot Labs 平臺親自體驗 MAI-Voice-1:不僅能輸入希望 AI 表達的內(nèi)容,還可自定義語音音色與說話風格。除這款語音模型外,微軟此次同步推出的 MAI-1-preview 模型,訓練過程動用了約 1.5 萬塊英偉達 H100 GPU。該模型專為特定需求用戶設(shè)計,具備遵循指令的能力,可“為日常咨詢提供實用回應”。
微軟 AI 負責人穆斯塔法?蘇萊曼去年在《Decoder》播客某期節(jié)目中表示,公司內(nèi)部研發(fā)的 AI 模型并未將企業(yè)級應用場景作為核心方向,他解釋道:“我的思路是,我們必須打造一款對消費者而言體驗極佳的產(chǎn)品,并針對自身應用場景進行深度優(yōu)化。在廣告業(yè)務(wù)、消費者行為數(shù)據(jù)等領(lǐng)域,我們擁有海量高預測性、高實用性的數(shù)據(jù),因此我的工作重點是構(gòu)建真正適配‘消費者伙伴’定位的模型?!?/p>
據(jù)悉,微軟 AI 計劃將 MAI-1-preview 模型應用于 Copilot 助手的特定文本使用場景(目前 Copilot 主要依賴 OpenAI 的大型語言模型)。同時,該模型已開始在 AI 基準測試平臺 LMArena 上進行公開測試。
微軟 AI 團隊在博客文章中寫道:“我們對未來發(fā)展有著宏大規(guī)劃。接下來,我們不僅會持續(xù)推進技術(shù)突破,更相信通過整合一系列針對不同用戶需求與應用場景的專業(yè)模型,將釋放出巨大價值。”