請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

OpenAI 發表三款語音模型,推理、翻譯及語音轉錄能力加速應用落地

科技新報

更新於 2天前 • 發布於 2天前

OpenAI 一口氣推出 3 款全新的即時語音模型,各自針對不同用途具備獨特特性,幫助開發者開啟一系列全新的語音 AI 應用體驗。

OpenAI 推出 3 款不同用途的新語音模型,分別具備推理、翻譯及語音轉錄的能力:

  • GPT‑Realtime‑2:OpenAI 首款具備 GPT‑5 等級推理能力的即時語音模型,可處理難度較高的語音請求,自然地與 AI 對話。

  • GPT‑Realtime‑Translate:這是一款全新即時翻譯模型,可將超過 70 種輸入語言的語音翻譯成 13 種輸出語言,同時能夠跟上說話者的節奏。

  • GPT‑Realtime‑Whisper:這是一款新的串流語音轉文字模型,能在說話者開口的當下,即時轉錄語音內容。

OpenAI 進一步說明具備推理能力的 GPT-Realtime-2,「GPT‑Realtime‑2 是為即時語音互動所打造,這款模型可對請求進行推理、呼叫工具、處理修正或中斷,並以契合當下情境的方式回應,持續推進對話。」

即時語音轉錄模型 GPT‑Realtime‑Whisper 方面,「GPT‑Realtime‑Whisper 是一款全新的串流轉錄模型,專為低延遲的語音轉文字所打造。它能在人們開口說話時即時轉錄語音內容,使產品展現更快、更靈敏、更自然的使用感受,從即時浮現的字幕,到能跟上對話節奏的會議筆記皆能如此。」

這 3 款語音模型包含在 OpenAI 的 Realtime API 當中,收費方式如下:

  • GPT‑Realtime‑2 為每百萬個音訊輸入 token 收費 32 美元(快取輸入 token 為 0.4 美元),每百萬個音訊輸出 token 收費 64 美元。

  • GPT‑Realtime‑Translate 為每分鐘 0.034 美元。

  • GPT‑Realtime‑Whisper 為每分鐘 0.017 美元。

語音可作為人們與產品之間的介面,進而成為一種自然的軟體使用方式。OpenAI 從技術深度與應用廣度展現語音 AI 快速發展,隨著延遲降低、支援語言擴大及推理能力導入,開發者可打造更貼近真實互動的語音產品,加速語音 AI 在客服、會議、教育及跨語言溝通等領域的應用落地。

▲ OpenAI 示範全新語音模型。

(首圖來源:OpenAI

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

AI伺服器訂單被台灣3大廠制霸!韓媒急了

NOWNEWS今日新聞
02

黃仁勳怒批AI末日論!點名矽谷CEO製造恐慌:他們覺得自己是上帝

anue鉅亨網
03

坐牢前押身家抄底一股票!出獄後一看「暴賺40000%」 資產飆破23億

太報
04

在地戲稱「台積國小」來了 5年內大樓3字頭家長搶卡位

ETtoday新聞雲
05

台股高檔投資術1/現在買0050太晚? 財務教練曝比預測股價高低更重要的事

鏡週刊
06

AI巨頭千億支出,台廠準備再吃餅?阮慕驊點破台股「過熱」真相:矽谷燒錢、亞洲變現

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...