AI 只拿到 D！ChatGPT 分辨科學假設錯誤率仍比想像高

華盛頓州立大學副教授 Mesut Cicek 領導研究顯示，ChatGPT 判斷科學假設方面錯誤率仍高，儘管模型不斷更新，準確性仍然有限，且重複詢問 AI 同樣問題，答案還是常常不同。

團隊測試719個2021年以來發表的商業期刊科學論文假設。每個假設都可檢驗，團隊要求ChatGPT根據研究分類為真或假，並為了評估可靠性，每個假設以相同提示詢問十次。

2024年團隊已測試過，免費ChatGPT-3.5正確答案比例為76.5%。2025年中的ChatGPT-5 mini，準確率略微上升至80%。考慮到隨機猜測機率，AI模型實際表現僅約60%，研究員認為此表現分數只有D‾。

ChatGPT辨識假陳述的表現最差，正確率僅16.4%。十次相同提示，ChatGPT僅對約73%提示有相同答案，常在真假間反覆跳躍，可靠性令人存疑。

Cicek強調：「我們不只要求準確性，還有不一致性……目前AI工具還不是以人類眼光理解世界，它們還只是提取資料庫數據。」

這項研究的結果突顯科學評估依賴AI的風險，特別是商業等需要假設驅動決策的領域。儘管生成式AI對整理摘要資料或腦力激盪等任務，但仍需要謹慎看待學術誠信和答案不一致。

（首圖來源：shutterstock）

理財