30名數學菁英聯手圍剿2天!多數遭AI破防
[NOWnews今日新聞] 人工智能(AI)問世後,短短幾年發展已相當驚人。今年5月,美國加州曾舉行一場對OpenAI o4-mini模型進行測試的會議,30名來自全球的頂尖數學家,挑戰能否設計出「自己能解答、但AI束手無策」的難題,結果顯示在為期2天的轟炸裡,AI模型能解出大多數題目,其中有些題目的難度之高,連在場的數學菁英都印象深刻。
根據外媒《生活科學》(LiveScience)報導,此次測試重點,在於AI對關鍵指令的服從性及推理能力,邀請了30位來自全球的頂尖數學家,分為5組挑戰OpenAI的o4-mini模型,若有哪題AI無法解答,設計者可獲得7500美元(約新台幣21.9萬)的獎金。
其中,美國知名日裔數學家小野健(Ken Ono)遇到了令他十分難忘的時刻,他設計了一個被認為是「開放性問題」的博士級難題並交給o4-mini,接下來的10分鐘裡,小野和其他與會者見證AI實時展開解題過程,首先花2分鐘迅速檢索並掌握相關文獻,接著提出先解決一個簡化版問題以進行學習,幾分鐘後宣布已準備好應對挑戰。
最終,在不到10分鐘的時間裡,o4-mini不僅給出了正確答案,其輸出的文字甚至帶有一種俏皮的自信,寫道:「無需引用,因為這個神秘數字是由我計算出來的。」
小野健對此震驚不已,表示他從未在模型中見過這種推理,直言「這就是科學家所做的事,太可怕了。」最後測試結果也發現,AI雖然不是無所不知,也還是有10個讓它難以應對的問題,但在場的數學家們,仍對AI的進步感到震驚,只需幾分鐘,就能完成人類專家數週或數月才能完成的工作。倫敦數學科學研究所的Yang-Hui He也給出極高的評價,認為AI的表現比一個非常優秀的博士生還要好。
不過,在該篇文章引發熱烈討論後,根據《科技評論》報導,1位也參與了此次研討會的數學家Jasper Zhang提出了一些澄清,認為原始的報導在某些方面有些誇大,總的來說,目前AI的限制,主要仍體現在原創性思維、深度邏輯綜合能力的部分。
Jasper Zhang指出,雖然AI過去2年確實取得了巨大進步,但目前的LLM模式,很大程度上仍然依賴匹配,深度推理能力是有限的,尚不具備產生全新數學成果的能力,在需要從零開始進行多步驟、跨概念的邏輯綜合與創造時,仍顯得力不從心,但極為擅長收集相關文獻和起草初步解決方案,顯示人類的監督,尤其是在驗證和綜合方面仍然不可或缺。