OpenAI 準備推出 GPT-5 重大突破可能性不高
OpenAI 準備推出 GPT-5,這將是 2023 年 3 月 GPT-4 的後繼模型。然而,根據 The Information 報導,這個新版本預計僅是適度的升級,而非革命性的突破。內部測試顯示,模型在程式設計、數學和遵循複雜指令方面有所進展,例如自動化客戶服務流程。儘管如此,與 GPT-4 相比,其提升幅度明顯小於 GPT-3 (2020) 到 GPT-4 (2023) 的躍進。熟悉評估的人士表示,GPT-5 能產生更易於使用的應用程式,並在運算資源管理上表現更佳,但總體進步據稱相當有限。
進展面臨瓶頸
這種停滯已有多方預測。Bill Gates 早在 2023 年秋季就曾預言此事,而大型語言模型評論家 Gary Marcus、Ilya Sutskever 和 Yann LeCun 也多次指出,基於 Transformer 的大型語言模型架構正接近其極限。一個實例是,OpenAI 最初開發代號為「Orion」的內部模型,旨在直接接替 GPT-4o。然而,Orion 並未達到 OpenAI 期望的效益,因此於 2025 年初以 GPT-4.5 的名義推出,這明確顯示 OpenAI 當時認為它不足以被稱為 GPT-5。GPT-4.5 幾乎沒有引起關注,運行速度較慢且成本高於 GPT-4o,很快便銷聲匿跡。
根據 The Information 報導,主要問題在於預訓練的更改對於較小模型有效,但隨著模型規模擴大,其擴展性不佳。同時,OpenAI 也面臨高品質網路訓練資料的短缺。Orion 在獲得 GPT-5 名稱之前就已停滯。The Information 引述消息來源稱,截至 2025 年 6 月,OpenAI 正在開發中的模型,沒有任何一個被認為足以被稱為 GPT-5。這項挑戰並非 OpenAI 獨有。例如,Anthropic 最近推出的 Claude 4 模型也僅帶來了整體溫和的改進,除了程式設計性能有顯著提升。Anthropic 已採用混合架構,結合了大型語言模型和專業推理組件,OpenAI 也可能為 GPT-5 採納此方法。
推理模型的發展與挑戰
除了主要模型之外,OpenAI 也致力於開發所謂的「推理模型」或「大型推理模型」(LRM),這些模型在獲得更多運算資源時,通常能在複雜任務上表現更佳。它們有望成為數學、網路搜尋和程式設計的有用工具,甚至可能為語言模型指引一個全新的方向。然而,關於它們的泛化能力和能源需求仍存在疑問。OpenAI 在這方面最大的突破發生在 2023 年底,當時 Q* 模型據稱解決了前所未見的數學問題。
在此基礎上,OpenAI 開發了 o1 和 o3 模型,兩者均基於 GPT-4o,並針對專業應用程式設計。o1 和 o3 都採用強化學習 (RL) 進行訓練,其中 o3「教師模型」獲得了更多的運算資源以及直接存取網路和程式碼來源。在強化學習訓練期間,模型會生成專家級問題的答案,並透過將其回應與人類解決方案進行比較來改進自身。然而,當這些模型被調整用於聊天時,o3 的部分能力據報導有所喪失。一位消息人士向 The Information 透露,聊天版本因未受足夠的真實對話訓練而必須「簡化」,這損害了其在聊天和 API 環境中的性能。
今年四月,ARC-AGI 基準突顯了這個問題:公開版本的 o3 在一個艱難的謎題測試中表現不如其內部基礎模型,顯示許多原始推理能力並未在過渡到聊天時保留下來。o3-pro 模型是這種微妙平衡的一個良好範例。專家在科學、程式設計和商業任務中對 o3-pro 的評價高於 o3,但在日常生活中卻難以處理簡單的事情。例如,回應「嗨,我是 Sam Altman」耗費了數分鐘並產生了 80 美元的運算費用,卻只給出一個微不足道的答案,這是過度思考的典型案例。GPT-5 旨在介於專業推理和實用對話之間。
GPT-5 的目標與未來走向
儘管面臨這些技術挑戰,GPT-5 的目標是推動「智能代理」系統的發展,亦即人工智能能夠自主執行多步驟任務的應用程式。這個新模型預計能更有效地遵循複雜指令,並減少人工監督。(GPT-4.1 已朝此方向邁進。)據稱,GPT-5 的能力也將超越 GPT-4o,而無需顯著增加運算資源。內部測試顯示,它能更好地判斷不同任務所需的運算能力,這有望提升效率並避免 o3-pro 等模型出現的過度思考問題。
對於 OpenAI 而言,即使是 GPT-5 的微小改進也可能足以維持客戶和投資者的投入。儘管營運成本高昂,OpenAI 仍持續快速增長。在程式設計相關的 AI 領域,Anthropic 目前以其 Claude 模型領先,而 OpenAI 希望透過 GPT-5 重新奪回優勢。OpenAI 正越來越多地依賴強化學習,特別是採用一種「通用驗證器」,能夠自動評估模型回應的品質,甚至適用於創意寫作等主觀任務。這個通用驗證器也用於最近在國際數學奧林匹亞競賽中獲得金牌的 OpenAI 模型。Jerry Tworek 曾提出,這個強化學習系統可能成為通用人工智能 (AGI) 的基礎。
NewMobileLife 網站:https://www.newmobilelife.com