如執行長奧特曼(Sam Altman)所預告,OpenAI 16 日發表 o3 和 o4-mini 模型,首次在 CoT(Chain of Thought)具備「以圖像思考」的能力,能夠理解並分析用戶所繪的圖,即使圖像品質不佳也沒問題。至於傳聞已久的 GPT-5 順延,目前未有具體時程。
OpenAI 這次發表 o3、o4-mini 延續去年 9 月推出的首款推理模型 o1,專注於解決複雜問題,並透過多步驟的思考方式來產生答案。其中運用 o3,用戶可以上傳白板筆記、手繪圖或其他圖像,讓 AI 進行分析和討論。這些模型還能進行旋轉、縮放等圖像編輯操作。
OpenAI 指出,o3 在數學、程式設計、科學及圖像理解表現特別出色;而 o4-mini 則具備更快的運算速度與更低的成本,這 2 款自 16 日起向 ChatGPT Plus / Pro / Team 訂閱用戶開放使用。
「我們的推理模型首次能夠獨立使用 ChatGPT 所有工具──包括網頁瀏覽、Python 程式編輯、圖像理解及圖像生成功能。這有助於有效解決複雜的問題,邁向 AI 獨立行動的目標」,OpenAI 表示。
OpenAI 也指出,這 2 款經過「有史以來最嚴格的安全測試」,並依據本週更新的「準備框架」(Preparedness Framework)進行測試。
除此之外,OpenAI 推出一款名為 Codex CLI 的開源編碼代理程式,目的是為開發者提供一個最小介面,他們可以使用它將 OpenAI 模型與自己的程式碼連結,可與 o3 和 o4-mini 配合使用,並且即將支援 GPT-4.1。
Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.
For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE
— OpenAI (@OpenAI) April 16, 2025
▲ 新的 o3、o4-mini 具備「以圖像思考」的能力。
值得一提的是,用戶常常對於 OpenAI 模型命名方式感到困惑,例如 GPT-4o、GPT-4.1、GPT-4.5、o1、o3 等,每款模型還有不同版本。「不如我們就在今年夏天前修正我們模型的命名方式,讓大家在這之前還能多笑我們幾個月(我們確實很值得被笑)」,奧特曼自己在 X 自嘲說。
自 2022 年底推出 ChatGPT 迅速爆紅以來,OpenAI 不斷升級模型能力,從文字延伸至語音、圖像、影像。面對 Google、Anthropic、xAI 及來自中國如 DeepSeek 等競爭,OpenAI 今年以來模型升級更為頻繁。
▲ OpenAI 推出 o3、o4-mini。
OpenAI's new o3 and o4-mini models are all about 'thinking with images'
OpenAI says newest AI model can ‘think with images,’ understanding diagrams and sketches
OpenAI debuts Codex CLI, an open source coding tool for terminals
(圖片來源:OpenAI)