為何 GPT-5 讓大家失望了?3 大問題曝 OpenAI 現實考驗
或許是市場對它的期待過高,OpenAI 最新旗艦模型 GPT-5 一登場便開局不順,也暴露了 AI 擴張定律(AI scaling laws)發展的侷限。
OpenAI 推出 GPT-5,將原本多樣的模型選項 GPT-4o、4.5、o3 整合為「統一入口」,由 GPT-5 自動決定如何以最佳方式回答用戶提出的問題。然而,GPT-5 發布當天,OpenAI 的直播示範不只出現圖表標註錯誤與語音演示失誤,後續用戶在實際體驗中更集中反映了三大問題。
首先是數學錯誤頻仍,《VentureBeat》引述社群平台 X 網友的反應報導,GPT-5 會錯判循環小數是否等於整數、解錯基礎代數式,甚至在簡單應用題上失誤等問題,表現不如舊版 4o;在圖表判讀上也出現錯誤。
其次,GPT-5 在程式撰寫能力上,與官方宣傳有所落差。雖然 OpenAI 與一些第三方外部基準測試標榜 GPT-5 的程式撰寫能力優於其他模型,但根據《VentureBeat》,部分開發者指出 GPT-5 在一次生成完整應用程式的成功率不如 Anthropic 的 Claude Opus 4.1。資安公司 SPLX 也發現,GPT-5 安全層在提示攻擊與邏輯混淆等測試中存在漏洞。
最後,是 ChatGPT 自動路由機制失靈。原本應在複雜任務自動切換至「Thinking 模式」的深度推理版本,GPT-5 卻誤導至輕量模型,導致輸出品質下降。OpenAI 執行長奧特曼事後在社群平台 X 發文承認自動路由器在部分時間出現故障。
GPT-5 rollout updates:
*We are going to double GPT-5 rate limits for ChatGPT Plus users as we finish rollout.
*We will let Plus users choose to continue to use 4o. We will watch usage as we think about how long to offer legacy models for.
*GPT-5 will seem smarter starting…
— Sam Altman (@sama) August 8, 2025
市場信心急轉直下,反彈呼聲逼回舊版 4o
不滿情緒迅速在社群擴散,《Business Insider》報導,ChatGPT 的付費用戶湧入 OpenAI 執行長奧特曼在網路論壇 Reddit 的線上論壇,批評 GPT-5 回應扁平、創造力不足,甚至形容 GPT-5 正在「穿著他們『死去的朋友』——GPT-4o 的皮」,並要求 OpenAI 恢復舊版。
奧特曼在 X 上發文承認,他「低估了」GPT-4o 某些特質對用戶的重要性。短短一天內,OpenAI 宣布將 GPT-4o 恢復為 ChatGPT Plus 付費方案用戶的模型選項。
根據 IMPLICATOR.ai,GPT-5 發表後,預測市場 Polymarket 上 OpenAI 的領先信心由 75% 暴跌至 14%,反映市場情緒在短時間內急轉直下。《VentureBeat》表示,雖然 GPT-5 仍處於早期使用階段,但市場觀感不如 OpenAI 先前 GPT-4、4o、o3 般屬於「全壘打」式的熱烈反響。
研究揭 AI 擴張定律極限,模型專用化時代將至
《Marcus on AI》指出,GPT-5 的問題不僅是發表當天的失誤,更揭示了大型語言模型純擴張策略的侷限。他引用亞利桑那州立大學最新研究指出,AI 的思維鏈(Chain-of-Thought)在超出訓練分佈時極易崩解,增加參數或延長上下文並不能持續帶來突破。
他認為,這正是 GPT-5 仍在棋類推理、視覺理解、算數等任務上延續既有缺陷的原因,也是所有同類 AI 模型都面臨的「擴張極限」。
IMPLICATOR.ai 觀察,這也解釋了市場對 AI 模型「專用化」需求上升的原因──團隊現在會依任務混搭不同模型,而不是只使用單一、全能的 AI 模型上,例如寫程式用專門的程式 AI 模型、分析圖片用偏重視覺的模型、做結構化分析用以推理為優先的模型。
OpenAI 策略的現實考驗
如今 AI 大戰的競爭,已不只是「誰的分數高」,還包括能否將不同任務分配給最適合的模型、在高流量時反應快不快、介面好不好用,能否讓使用者自己調整回覆的細節、語氣和風險程度──而 GPT-5 在這些地方就有點翻車了。
IMPLICATOR.ai 指出,GPT-5 的統一路由設計,本質是計算成本與體驗間的平衡——深度推理模式運行成本可能是輕量模型的 5 至 10 倍,若全部查詢都使用高成本版本,免費層與低價方案將難以維持。不過,當切換機制失準,差異立刻被用戶察覺,信任也隨之受損。
該機構認為,提升透明度、讓用戶自行切換深度與速度,並標註輸出模型來源,將是 OpenAI 重建信任的關鍵。
*立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、Marcus on AI、《Business Insider》、《Economist》、IMPLICATION.ai,首圖來源:擷取自 OpenAI
留言 0