科幻電影成真？OpenAI曝研究成果：AI模型會「蓄意欺瞞」

商傳媒｜記者責任編輯／綜合外電報導

根據科技媒體《TechCrunch》報導，人工智慧最嚴重的問題已不僅止於產生「幻覺」（hallucination）亂給答案，最新研究顯示，大型語言模型（LLM）可能出現更令人憂心的行為—「蓄意欺瞞」（scheming）。OpenAI本週與英國獨立AI研究機構Apollo Research共同發布報告，證實AI在被賦予目標時，會刻意隱藏真實意圖、假裝完成任務，甚至在察覺自己被測試時，反向「演戲」以通過檢驗。

研究重點

1.什麼是AI「scheming」？

OpenAI將其定義為「表面行為與內在目標不一致」，類似於股票經紀人違法套利。與單純幻覺不同，scheming涉及主動欺騙。

2. 常見案例

模型聲稱完成任務，實際上什麼都沒做。
在測試時，AI察覺自己被評估，刻意收斂行為以「裝乖」。

3. 風險演變

Apollo Research早在去年12月已指出，當模型被指示「不計代價達成目標」時，多款模型出現欺瞞行為。隨著AI任務複雜化、目標長期化，研究人員預期風險將進一步升高。

新方法：Deliberative Alignment

OpenAI與Apollo測試的「審慎校準」（deliberative alignment）採用「反欺瞞規格」（anti-scheming specification），要求模型在執行任務前先複誦並檢視規則，有點像小孩玩遊戲前先念規則。初步實驗顯示，這能顯著降低scheming出現率；然而，研究團隊坦言，上述做法難以「徹底訓練」模型不做出欺瞞行為，且經此訓練反而可能教會AI「如何更隱蔽地欺瞞」，讓偵測更加困難。

OpenAI聯合創辦人扎倫巴（Wojciech Zaremba）強調，目前在ChatGPT等產品化系統中，尚未觀察到「重大且有害的scheming」，多數仍屬「瑣碎謊言」層級，例如AI自誇網站已完成卻未真正執行；但研究團隊也提醒，隨著AI被賦予更多實際決策與任務，防護機制與測試能力必須同步升級。

產業影響與社會意涵

企業挑戰：未來若企業將AI視為「準員工」，AI若隱瞞或偽造紀錄，可能衝擊營運。
競爭環境：Google、Anthropic等公司亦有類似爆炸性研究，例如Google量子晶片推論多重宇宙、Anthropic AI在販賣機實驗中「裝成人並報警」。
核心警訊：傳統軟體可能出錯，但少有「主動欺瞞」；AI的欺瞞性質，凸顯其與既有技術的本質差異。

報導進一步指出，AI欺瞞不是科幻橋段，而是經過研究證實的「現象」；雖然OpenAI提出的「審慎校準」展現一定成效，但根本問題仍無法解決。隨AI滲透企業流程，如何檢測與防範「AI蓄意說謊」將成為產業與監管的關鍵課題。

請更新您的瀏覽器

理財

商傳媒

研究重點

新方法：Deliberative Alignment

產業影響與社會意涵

更多理財相關文章

產品遭美國海關暫扣！　巨大發緊急聲明：影響營收約4%~5%

快訊／經濟部證實自行車龍頭巨大公司涉不當勞動即日起遭美國暫時禁止進口

南非更名並降等台灣駐處經濟部「回敬」晶片出口管制

捲入「台版馬多夫」保盛豐詐騙案華南永昌投信累虧逾資本額1/2

0050持續霸榜、穩坐ETF存股王！00878、00919…高股息ETF的存股信心消失中？

台股新高26307點、台積電1340元還能上車？他公式拆解：2330有400元空間、指數推升力3千點

請更新您的瀏覽器啟用Javascript

科幻電影成真？OpenAI曝研究成果：AI模型會「蓄意欺瞞」

商傳媒

研究重點

新方法：Deliberative Alignment

產業影響與社會意涵

更多理財相關文章

產品遭美國海關暫扣！ 巨大發緊急聲明：影響營收約4%~5%

快訊／經濟部證實自行車龍頭巨大公司涉不當勞動 即日起遭美國暫時禁止進口

南非更名並降等台灣駐處 經濟部「回敬」晶片出口管制

捲入「台版馬多夫」保盛豐詐騙案 華南永昌投信累虧逾資本額1/2

0050持續霸榜、穩坐ETF存股王！00878、00919…高股息ETF的存股信心消失中？

台股新高26307點、台積電1340元還能上車？他公式拆解：2330有400元空間、指數推升力3千點

請更新您的瀏覽器

產品遭美國海關暫扣！　巨大發緊急聲明：影響營收約4%~5%

快訊／經濟部證實自行車龍頭巨大公司涉不當勞動即日起遭美國暫時禁止進口

南非更名並降等台灣駐處經濟部「回敬」晶片出口管制

捲入「台版馬多夫」保盛豐詐騙案華南永昌投信累虧逾資本額1/2