微軟首發自研 AI 模型登場!MAI-Voice-1、MAI-1-preview 直攻成本效益
微軟在美國時間 8/28 發表了首批自主研發的 AI 模型:MAI-Voice-1 AI 和 MAI-1-preview,並宣稱效能可媲美全球頂尖產品。其中,MAI-Voice-1 主打語音生成效率,只需一張 GPU、不到一秒鐘就能產生一分鐘的音訊,而 MAI-1-preview 則「呈現了 Copilot 未來產品的雛形」。
目前,微軟已將 MAI-Voice-1 應用在 Copilot Daily 新聞播報,以及產生 podcast 風格的 AI 對話,並開放在 Copilot Labs 讓使用者自由調整聲線與說話風格。
過去幾年,微軟以合作夥伴角色深度支持 OpenAI,《The Verge》評論,微軟發表新模型為合作關係帶來新轉折,因為自研模型正式問世,意味著直接挑戰 OpenAI、DeepSeek 等市場領先者。
強調成本效益,對決高階模型
《Semafor》指出,這兩款模型都強調成本效益,而這正是 AI 產業的核心難題之一。MAI-1-preview 使用約 1.5 萬顆 NVIDIA H100 GPU 訓練完成,相比之下,對手 xAI 為訓練 Grok 動用了超過 10 萬顆 H100。
微軟 AI 負責人 Mustafa Suleyman 告訴《Semafor》,公司善用部分開源技術,讓模型在資源有限的情況下仍能大幅延伸能力。他強調, 如今訓練模型的關鍵不再是單純投入算力,而在於如何精準挑選能帶來最大學習效果的資料。
Suleyman 也透露,團隊正於搭載下一代 GB-200 晶片的超大資料中心開發後續版本,並規劃了「長達 5 年的投資路線圖」。他也強調,微軟將以消費者場景為核心,讓模型更貼近個人助理型使用情境。
微軟與 OpenAI:競合張力升高
微軟與 OpenAI 的關係再次被放到聚光燈下。雙方原本有協議,OpenAI 模型僅能在微軟資料中心獨家運行,如今微軟推出自家高階模型,等同踏入直接競爭,外界解讀這將使兩家公司的關係進一步緊繃。
不過 Suleyman 在接受《Semafor》訪談時淡化分歧,強調「目標是深化合作,並確保在未來多年與 OpenAI 保持良好關係,」他說,「我希望這種合作能持續下去,我非常肯定這會持續下去。」
OpenAI 回擊?開放 Realtime API、推 GPT-Realtime
就在微軟宣布自研模型的同時,OpenAI 也帶來全新語音模型 GPT-Realtime,並正式將 Realtime API 推出測試版之外的商用版本。
根據《Inc》,GPT-Realtime 強調更自然的語音互動,能跨語言無縫切換,理解笑聲等非語言訊號,甚至能同時處理影像描述。新版 Realtime API 還支援 MCP(Model Context Protocol),費用方面也比舊版便宜,輸入與輸出 token 單價各下調 20%。
微軟強調效率與產品整合,OpenAI 則深化語音與多模態互動。一場新的 AI 模型對決正在展開,雙方表面仍維持合作,但競合的張力已然浮現。
立即報名 9/17 【AI 智慧大工廠】新竹場,解鎖以數位孿生實現生產效益大爆發的關鍵策略
*本文開放合作夥伴轉載,資料來源:Microsoft、《Semafor》、《The Verge》、《ZDNET》、《Inc》,首圖來源: Microsoft