OpenAI 發佈 HealthBench GPT-4.1 與 o3 模型醫療表現超越醫生
OpenAI 宣佈推出全新醫療人工智能評測基準HealthBench,不僅涵蓋 49 種語言與 26 項專科,更在測試中顯示最新 GPT-4.1 與 o3 模型整體表現已優於醫生,顯示 AI 在醫療語言處理上的快速進展與潛力。
更貼近臨床實境的測試標準
過去的醫療評測工具常因缺乏醫學專家參與或場景設計過於簡化,難以真實反映臨床需求。為解決這些問題,OpenAI 與來自 60 國、共 262 位醫生合作,設計出 5,000 筆貼近真實情境的醫病對話範例,涵蓋從急診醫學到全球健康等七大領域。HealthBench 並提供多達 48,000 個以醫學為基礎的評估點,從溝通品質、指令遵循、正確性、情境理解到完整性五大面向進行評分。
GPT-4.1 評分與醫生判斷一致性高
HealthBench 的評分由 GPT-4.1 模型執行。為確認可靠性,OpenAI 將 GPT-4.1 的判斷與真實醫生評估結果比對,結果顯示模型與醫生間的評分一致性已達到與醫生彼此間相當的水平,代表模型在理解與回應醫療語境上的表現已相當成熟。
GPT-4.1 與 o3 表現超越醫生
早期測試中,醫生能顯著改善舊版模型輸出內容,然而到 2025 年 4 月,GPT-4.1 與 o3 模型在未經任何修正的情況下,表現已全面超越醫生。GPT-4.1 在測試中得分為 0.60,遠高於 2024 年 8 月 GPT-4o 的 0.32。其他競爭模型中,xAI 的 Grok 3 得分為 0.54,Google 的 Gemini 2.5 則為 0.52,僅有少數能與 OpenAI 模型接近。
關鍵在最差表現與效率
在醫療領域,一個錯誤回應可能造成嚴重後果。HealthBench 因此設計了壓力測試以觀察模型最差回應的品質。OpenAI 表示其最新模型在最差表現上亦有明顯進步,但仍需持續改進。此外,效率也是一大重點。新推出的 GPT-4.1 nano 不僅效能超越 GPT-4o,成本更僅為其 1/25,展現出高效能與低資源需求兼備的潛力,特別適合資源有限的醫療環境。
推動醫療 AI 研究進一步發展
為鼓勵更廣泛的研究應用,OpenAI 同步釋出兩組新資料集:HealthBench Consensus 與 HealthBench Hard。前者聚焦於經嚴格驗證的標準案例,後者則收錄 1,000 筆對現有模型構成挑戰的高難度案例,有助研究者進一步提升模型極端情境下的表現。
NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone
留言 0