獨步全球!台灣「臨床AI驗證中心」如何將AI煉成全能醫師,走向全世界?
一位在大醫院表現優異的住院醫師,突然被調到外國醫療站,面對一群完全不同的病人,他一樣能精準行醫嗎?這正是當今醫療AI面臨的大挑戰。為解決這個難題,衛福部創建了連美國都沒有的「臨床AI驗證取證中心」,透過3大策略提升AI適應力,不只要打贏醫療安全之戰,還要讓台灣AI產品打進全球市場。
美國FDA通過一項台灣AI軟體醫材,會從影像判斷糖尿病造成的視網膜病變,雖然它訓練時表現優異,相當精準,但拿去泰國眼科醫師缺乏的地區去做篩檢時,準確度卻一落千丈。因為遇上不同共病、不同國家的人民,AI就看不懂了。
在7月舉行的台灣臨床AI取證驗證中心啟動大會暨國際研討會上,衛福部資訊處處長李建璋以這個真實案例,說明全球各大醫院正在真實上演的挑戰:AI也會認錯人、水土不服,為什麼會這樣?李建璋解釋得直白,因為現在絕大多數的AI軟體醫材都是「記憶型」,不是「推理型」,就像學生靠死背通過考試,遇到沒見過的題型就傻眼。
這種「水土不服」的現象其實有科學根據。加州大學舊金山分校副教授Jean Feng進一步說明,AI效能衰退有2大原因,包括病患特徵不同和紀錄診斷標準不同。以某個放射治療病人的急性照護需求預測模型為例,它在杜克大學醫學中心陽性預測值高達80%,到了加州大學舊金山分校醫學中心(UCSF),卻跌到60%。這可能與UCSF有更多前列腺癌患者,而AI沒學過這類病人的就醫模式有關。
衛福部成立臨床AI驗證取證中心,領先許多歐洲先進國家
全世界都在想辦法提升醫療AI的適應力,但各醫院自己重新訓練本地模型,不但成本高,而且一間醫院再怎麼努力,數量和訓練效果都有限。
台灣選擇了前所未有的創新路徑。衛福部邀集4間醫院,成立臨床AI驗證取證中心,把各級醫院都納進來,由政府聘請的行政團隊、生物統計專家、流行病學家、資料科學專家,群策群力來幫助各醫院清理資料,將AI可學的資料最大化,並執行跨院的驗證計劃,讓「AI醫師」走出實驗室,接受真實世界資料的考驗。
李建璋比喻,這就像「驗車中心」,不只抓出AI的問題,還能提供更多資料讓AI學習、變強,再進行補考,直到通過考驗,再去相當於「監理站」的食品藥物管理署申請許可證,就能上市。這個中心不只幫助找出AI的弱點,還能提供更多樣化的資料讓AI改善模型。
台灣在AI研發與驗證的高瞻遠矚,連國際都刮目相看。臨床AI驗證取證中心召集人、台中榮總名譽院長陳適安最近帶團到歐洲交流,他發現,台灣醫療AI水準已經與許多歐洲先進國家的醫院齊頭並進,甚至更勝一籌。陳適安對未來充滿信心,他相信4年後,台灣醫療AI的驗證取證機制將完全成熟,產品能行銷全世界。
3大策略提升AI適應力
台灣的臨床AI驗證取證中心,具有3大特色。首先是組建醫院聯盟,目標是盡可能涵蓋各級醫療體系、各式各樣的人群,確保AI見過各種病患,李建璋強調,「樣本數沒有最大,只有更大。」再者是使用「聯邦學習」的技術,讓AI模型去各醫院「串門子學習」,病歷資料不離開醫院,兼顧效能與隱私。
最後是建立AI學習的共同語言,台灣核心資料群已包含109項臨床資料,其格式完全對接美國法定的電子病歷標準(FHIR),這將使台灣開發出來的AI產品,放到國外醫院也能用,可以無縫接軌國際。目前國內已有14家醫院的電子病歷資採用FHIR標準,這是大勢所趨,加入的醫院只會愈來愈多。
台灣的努力獲得國際認同,國際專家也提供寶貴建議。美國范德堡大學癌症研究講座教授、生物統計系主任石瑜提醒,新的AI醫材不一定要證明「比現有的更好」,證明「不比現有的差,但更快、更便宜」也是一條路。
Jean Feng則強調「對症下藥」概念,也就是發現AI準確度下降時,要盡力找出AI失效的真正原因。以前述放射治療病人的急性照護需求預測模型為例,發現影響UCSF準確度的原因是前列腺癌病人後,僅針對前列腺癌病人重新訓練AI,其他病人沿用杜克大學的AI,準確度就回升到與原本相當了。
驗證後,取證還是有點卡
台灣有了先進的驗證中心,政策法規也得跟上腳步。數位發展部次長林宜敬表示,歐美對AI監管看法分歧,歐洲對於「AI不能用來做什麼」有共識,但美國認為太多監管會阻礙創新。觀察國際發展後,台灣選擇折衷路線,AI相關立法仰賴跨部會緊密合作,但各部會也要針對各自的主管業務去訂定規範。
驗證後的取證,是目前最受業界抱怨的卡關點。食藥署醫粧組組長錢嘉宏表示,技術變化太快,廠商都會擔心,晚幾天通過審查,市場可能就被人佔走了。為了加速流程,食藥署持續精進審查能力,同時也導入AI,希望可幫助廠商在送件前先檢視送件資料的完整性。
錢嘉宏認為,如果資料完整,內部審查大約3個月,最快半年拿證。食藥署也推出短效期許可,讓具有醫療迫切需求的創新產品,可以不需要那麼完整的資料,就先取得1~3年的短效許可證,中間補齊更完整資料,才會給予下一輪的有效許可期。
目前我國已核准196張AI醫材許可證,以放射影像醫材佔8成為最大宗,其中國產有57張多為軟體醫材,進口的139張多為軟體搭配硬體設備。
驗證死背型AI還算簡單,更棘手的是生成式AI
下一個艱困挑戰,是許多醫院病歷紀錄系統裡的生成式AI。李建璋點出關鍵差異:推論型AI有標準答案,生成式AI是幫人寫申論題,申論題沒有標準答案,該怎麼驗證?
李建璋表示,這個問題要回歸醫院「病歷品管委員會」去解,現在是要檢查醫師的病歷寫作品質,以後則要檢查AI產出的內容是否正確、完整、無偏見。
當臨床醫學教育遇上生成式AI,必須格外謹慎,李建璋提醒,如果實習醫師依賴用AI寫病歷,將來當上主治醫師時,可能就真的不會寫了。這部分可參考美國作法,僅容許學習中的醫師用AI檢查自己寫的病歷,專科醫師才能用AI寫病歷。
(本文諮詢專家:數位發展部次長林宜敬、衛福部資訊處處長李建璋、台中榮總名譽院長陳適安、食藥署醫粧組組長錢嘉宏、加州大學舊金山分校副教授Jean Feng、美國范德堡大學癌症研究講座教授石瑜)
延伸閱讀:
留言 0