請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI醫師來了?微軟AI診斷準確率飆85%「真人僅20%」:哪個AI最懂醫學?醫生也要失業了?

數位時代

更新於 07月01日10:24 • 發布於 07月01日09:20

重點一 :微軟公布旗下AI診斷協調MAI-DxO於304例複雜病例中,正確診斷率達85.5%,遠超21位資深真人醫師的20%。

重點二 :該研究指出,MAI-DxO不僅診斷更精準,也能有效降低診斷成本,展現AI協助醫療決策的經濟效益。

重點三 :但MAI-DxO目前僅供研究用途,尚未獲臨床認證,未來將展開更多真實場域測試與安全驗證。

Microsoft AI團隊最新研究顯示,其開發的Microsoft AI Diagnostic Orchestrator (MAI-DxO,微軟AI診斷協調器)在醫學診斷領域取得突破性進展。

MAI-DxO以《新英格蘭醫學雜誌》(簡稱NEJM)每週發布的真實病例記錄為基準, 其正確診斷率高達85.5%,遠遠超越由美國與英國21位臨床經驗5至20年的資深醫師組成的對照組,後者平均僅達20%。 此一成果不僅展現AI在面對醫療難題時的精準度,也突顯成為臨床決策輔助工具的潛力。

採用真實病例!讓AI按照真實情境問診

過去AI醫療系統多以美國醫師執照考試(USMLE)等選擇題作為評測標準,但這類題型偏重記憶力,難以反映臨床推理與決策能力。微軟AI團隊認為,AI若要真正幫助醫療現場,必須具備逐步分析與決策能力。

因此,團隊開發出「序列診斷基準」(Sequential Diagnosis Benchmark, SD Bench),利用NEJM發表的304個複雜病例,讓AI或醫師從初步病徵出發,逐步詢問、選擇檢查並整合新資訊,最終給出診斷。 同時,AI模型的每一次檢查都要設定虛擬成本,模擬真實醫療資源消耗,讓評估同時考量診斷準確率與成本效益。

微軟團隊據此方式測試了多款生成式AI模型,包括GPT、Llama、Claude、Gemini、Grok與DeepSeek,並進一步開發MAI-DxO系統。 它的運作方式可以理解為,一個由多位醫師組成的虛擬團隊,AI 會根據病人的症狀,主動提出追問、選擇合適的檢查,並逐步推進診斷流程,最後給出診斷結果。

簡單來說, MAI-DxO 不只是單一 AI 系統,而是能整合多個不同 AI 模型,像醫師討論一樣協作解決問題,目標是幫助醫療人員更快、更準確、也更省錢地解決困難病例。

MAI-DxO 會像醫師一樣,根據病人症狀逐步詢問、安排檢查、分析結果,並在考量成本下推理出最合理的診斷。

MAI-DxO正確率高達85%!單一模型o3正確率最高

研究結果顯示, MAI-DxO搭配OpenAI最新模型,在SD Bench上正確診斷率高達85.5%,而21位美國與英國臨床經驗5至20年的醫師,平均僅達20%。

圖表右下方有一個紅十字,標示為「Physicians (Overall)」,即為人類醫師團隊的20%正確診斷率的對照組,成本約為 $3,000 美元。

依照微軟研究結果,MAI-DxO不但正確診斷率高,在各個成本區間的表現也遠比單一模型更好。

X軸:平均診斷檢查成本(美元)
Y軸 :診斷準確率(%)
紫色線條 :描繪MAI-DxO在不同設定下的表現(即在不同成本約束下的準確率變化)
紅色叉號 :21位臨床醫師的平均表現

令人驚訝的是, 單一模型的表現,除了成本較低的 GPT 3.5 Turbo 外,幾乎所有 AI 模型和系統都在診斷準確率上超越了人類醫師基準。 尤其 MAI-DxO 系統,即使是0成本,其準確率和成本效益也比人類醫師的平均表現更高。

至於各家語言模型的表現, 可看到OpenAI旗下的o3、o4 mini,以及Anthropic旗下的Claude 4 opus、Claude 4 sonnet為領先群,在70%正確診斷率的基礎,將平均診斷檢查成本控制在7000美元以下。其次表現較佳的則為Google旗下的Gemini 2.5 Pro,在逼近70%的正確診斷率上,成本在5000美元以下。

連醫師都要被AI取代了?微軟曝人類醫師「無可替代」關鍵

微軟研究強調,一般醫師多為全科或專科,難以同時兼顧廣泛與深入的專業領域。但AI可同時整合多專業知識,展現橫跨多領域的臨床推理能力,為醫療帶來全新可能。

微軟AI團隊認為,AI有潛力協助病患自主管理健康,也能成為醫師在複雜疾病診斷上的決策輔助工具,進一步提升醫療效率, 更重要的是,降低高昂的醫療成本。

研究強調,AI在診斷過程中不會一味要求所有檢查,而是能以較低成本達到高準確率,解決過度檢查導致的醫療浪費。美國目前醫療支出已近GDP的20%,其中高達四分之一被認為是無效支出,而AI有機會協助醫療體系更有效分配資源。

微軟表示,MAI-DxO目前僅為研究性質,尚未取得臨床應用認證,未來將持續與全球醫療機構合作,於真實臨床環境進行嚴格測試與驗證,並配合監管機構制定安全、可靠的應用標準。

微軟也強調「AI不會取代醫師」,而是成為醫師與病患的助手。臨床醫師在建立病患信任、處理不確定性等方面仍具不可取代的角色。

延伸閱讀:AI能代替心理諮商嗎?當ChatGPT變成「情緒樹洞」:絕不插話、永遠懂你,卻暗藏危機?

資料來源:微軟

延伸閱讀

20%台灣人逾65歲!醫療零售「布陣AI」攻銀髮市場:誰更懂長輩,就能拿下銀光商機
「推我去曬太陽吧,安德魯!」一文盤點AI醫療案例:我們距離長照機器人有多遠?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

景氣燈號「回落近1年半」最低點 國發會點3因素恐添變數

TVBS
02

台積電沒拿到特斯拉165億美元大單!馬斯克把最新晶片交給「這企業」製造

風傳媒
03

台灣無人機出口暴增近7.5倍! 不是烏克蘭 「這國」是最大買家.....

新頭殼
04

金管會ETF新規 專家:高股息要掰了?

NOWnews 今日新聞
05

士電、中興電、亞力、華城...台美加速電網投資,重電4雄誰能領風騷?

商周財富網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 18

Dan尼爾
檢察官跟法官也需要AI取代
07月04日13:46
虛空靜寂
直接開立診所、醫院了!都人力出走荒廢了,需要AI支援,刻不容緩!
07月04日13:41
賴智豪
「美國目前醫療支出已近GDP的20%,其中高達四分之一被認為是無效支出,而AI有機會協助醫療體系更有效分配資源。」 我國的健保給付支出,不知道有沒有統計無效支出的佔比?若能大幅運用AI來減少這些無效支出,相信能降低醫療資源浪費。
07月04日13:55
Doris
先取代恐龍法官,謝謝
07月04日14:04
∮(香蔥頭 ‧Ziv)dτ⇀∞ 語音停用
如果納入台灣每天逛醫院騙醫師開藥的老人,診斷正確率應該會大幅下降
07月04日13:38

顯示全部

最新消息

盤中速報 - Worldcoin大跌8.19%,報1.12美元

anue鉅亨網

盤中速報 - Dogwifhat大跌8.53%,報1.04美元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Kinsale Capital Group Inc(KNSL-US)EPS預估上修至18.1元,預估目標價為485.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Woori Financial Group Inc - ADRWF-US的目標價調升至63.23元,幅度約9.99%

anue鉅亨網

鉅亨速報 - Factset 最新調查:福陸FLR-US的目標價調升至57元,幅度約8.57%

anue鉅亨網

盤中速報 - FLOKI大跌8.37%,報0美元

anue鉅亨網

慧榮今天正式入厝竹北總部! 未來四年竹北高鐵站前核心區行情火熱

太報

智易(3596)啟動成長週期,寬頻與5G需求推升未來兩年營運動能

優分析

工程師高薪排行 年薪中位數178萬元奪冠

NOWnews 今日新聞

市場期盼美中延長貿易休戰 華爾街股市多收漲

中央通訊社

〈美股盤後〉川普稱全球基準關稅大概是15-20% 標普那指再登新高

anue鉅亨網

美歐貿易協定達成「美股漲跌互見」 台指期盤後小跌68點

民視新聞網

川普設俄烏停火新期限引供應擔憂 國際油價走揚

中央通訊社

蔡明忠組團破局/難擋剪線潮雪崩另謀出路 蔡明忠組寬頻聯軍抗中華電信失利

鏡週刊

蔡明忠組團破局1/蔡明忠登高一呼被打槍 揭密寬頻業者冷回應4大理由

鏡週刊

蔡明忠組團破局2/全台有線電視業者山頭林立 他讓蔡明忠再踢鐵板

鏡週刊

蔡明忠組團破局3/寬頻一哥中華電信沒在怕 不打價格戰直攻加值應用

鏡週刊

陸行之直指五大因素使得三星拿到特斯拉晶片代工生意

科技新報

金融時報:特斯拉165億美元大單 仍難挽回三星晶圓代工頹勢 Edit

anue鉅亨網

鉅亨速報 - Factset 最新調查:RPM International, Inc.RPM-US的目標價調升至135元,幅度約7.14%

anue鉅亨網

鉅亨速報 - Factset 最新調查:Credo Technology Group Holding LtdCRDO-US的目標價調升至112元,幅度約8.21%

anue鉅亨網

盤中速報 - 哈希圖大跌8.47%,報0.2668美元

anue鉅亨網

下半年信用卡權益變動(二) 3張LINE Pay大決鬥

卡優新聞網

台新新光壽險通過合併 雙證券整併躍升第4大

卡優新聞網

房市冷淡買舊不買新 北市老屋交易成主流

卡優新聞網

億級高資產戶破萬人 玉山銀挺進財管3強

卡優新聞網

盤中速報 - Sui大跌8.17%,報4美元

anue鉅亨網

日本淡化川普貿易協議風險 稱5500億投資多為放貸

anue鉅亨網

藥價要漲了?歐美貿易協議15%關稅 製藥業成本恐增至190億美元

anue鉅亨網

盤中速報 - CRV大跌8.58%,報0.974美元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Range資源-路易斯安那(RRC-US)EPS預估下修至3.12元,預估目標價為44.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Expand Energy Corporation(EXE-US)EPS預估下修至6.78元,預估目標價為134.50元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Woori Financial Group Inc - ADR(WF-US)EPS預估上修至8.88元,預估目標價為57.49元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Antero Resources Corp(AR-US)EPS預估下修至2.59元,預估目標價為46.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:雪佛龍(CVX-US)EPS預估上修至7.8元,預估目標價為165.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:加拿大自然資源公司(CNQ-US)EPS預估上修至2.55元,預估目標價為37.97元

anue鉅亨網

鉅亨速報 - Factset 最新調查:SharkNinja Inc.SN-US的目標價調升至126元,幅度約4.13%

anue鉅亨網

鉅亨速報 - Factset 最新調查:布魯姆能源BE-US的目標價調升至28.5元,幅度約5.56%

anue鉅亨網

微軟Edge新推「Copilot模式」 AI助理深化網頁瀏覽體驗

anue鉅亨網

鋰價反彈疑似曇花一現,鋰概念股Albemarle股價暴跌逾10% 投資人獲利了結

優分析