Apple Intelligence 語音轉文字速度比 OpenAI Whisper 快上兩倍
最近向開發者推出的 Apple Intelligence 語音轉文字工具,不僅速度快、準確性高,而且通常比 OpenAI 長期以來的對應工具快上兩倍。這可能再次證明 Apple 雖然進入市場較晚,但卻能做到最好。自 OpenAI 於 2022 年 9 月發布其 Whisper 語音轉文字技術以來,它已成為數十款應用程式的標準模型,但現在這種情況可能不會持續下去。在今年的 WWDC 上,Apple 宣布將其 Apple Intelligence 工具開放給第三方開發者。儘管 Apple 幾乎沒有提供任何細節,也當然沒有特別宣傳其語音轉文字工具,但開發者們現在正逐漸發掘它所帶來的各種功能。
開發者的發現與 Yap 工具
開發者 John Voorhees 和他的兒子據報導花了約十分鐘,構建了一個快速工具,以便在 Mac 上使用 Apple 的語音轉文字技術。具體來說,他們使用了 Apple Speech framework 中的 SpeechAnalyzer 和 SpeechTranscriber 元件,這些元件是作為 Apple macOS Tahoe 和 iOS 26 beta 版的一部分向開發者發布的。這個快速工具是一個命令列工具,他們稱之為 Yap,目前已開放從 Github 下載。它需要一個 Apple 開發者帳號和 macOS Tahoe 才能運行。
效能比較與測試結果
AI 語音轉文字工具主要依賴所使用的大型語言模型(LLM),因此比較並非總是那麼簡單。然而,將 Apple Intelligence 與 MacWhisper 的 Large V3 Turbo 模型進行比較,卻展現了顯著的差異。Apple 的 Speech framework 工具始終比這個基於 Whisper 的應用程式快上兩倍多。一項針對 7GB 的 4K 影片檔案測試顯示,Apple Intelligence 在 45 秒內將其讀取並轉錄為字幕。相比之下,使用 Large V3 Turbo 大型語言模型的 MacWhisper 總共花費了 1 分 41 秒,而 MacWhisper 的 Large C2 模型則需要 3 分 55 秒才能完成相同的工作。儘管這些轉錄內容都不是百分之百完美,都需要後續編輯,但 Apple Intelligence 版本的準確性與基於 Whisper 的工具相當,且速度快上兩倍。
技術的廣泛應用
除了向開發者發布這些 Apple Intelligence 工具外,Apple 也發布了詳細的影片,說明如何實作這項技術。當然,該公司也已將相同的技術應用於其 macOS 26、iOS 26 等 beta 版本中。這項技術正是驅動其在訊息應用程式和電話通話中即時翻譯功能的幕後功臣。
NewMobileLife 網站:https://www.newmobilelife.com
留言 0