請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

專訪/AI模型秀台灣腔,Taiwan Tongues可行?

遠見雜誌

更新於 07月04日11:01 • 發布於 07月04日11:01 • 曾子軒

2024年年底,中華民國資訊經理人協會(IMA)宣布展開「Taiwan Tongues」計畫,目標建起台灣在地語料庫,用以訓練AI模型。現在,他們更進一步推出資料集,用來測試AI模型對台灣文化語境的理解程度。在科技大廠努力研發演算法、力拚算力、挖角人才的時候,為何IMA要回頭發展基礎建設?

演算法、算力與資料,是資料科學與人工智慧發展的三大支柱。但檢視現有環境,台灣可說是三項皆有不足。

台灣不僅缺乏品質優異且數量足夠的資料,也不像Meta、xAI能夠以萬張為單位添購GPU,更難以千萬等級高薪爭搶頂級人工智慧人才。既然如此,IMA優先投入資料戰場的理由為何?

缺乏高品質資料訓練AI,政府燒錢買、企業偷偷用

自2022年底ChatGPT掀起全球AI浪潮後,台灣便出現是否該開發「本土GPT」的呼聲。

國科會從維繫文化、促進主權AI的立場出發,開發「可信任AI對話引擎TAIDE」;民間企業台智雲、聯發科等,則因為看見商業需求,相繼推出自家模型。與此同時,數發部提供算力給新創使用,也有企業投入算力租賃服務,從不同面向推進主權AI的發展。

IMA之所以從中優先鎖定資料,原因在於要先有好資料,才會有好的模型。

「所有訓練(模型)的基礎,一定都是從語料來的。不管是國際或者是在地,大型語言模型其實都是從語料開始。」參與「Taiwan Tongues」計畫的IMA成員、同時也是吳三連文學獎得主胡長松接受《遠見》專訪時,解釋投入蒐集並尋求授權語料的原因。

觀察現有台灣本土語言模型,由公部門主導的TAIDE相對公開,有在計畫中揭露訓練資料來源;企業自研模型則較為隱晦,難以得知其語料組成與授權情況。

雖然政府機關帶頭添購資料,但TAIDE計畫顧問、中研院資訊科學研究所副研究員黃瀚萱在演講時分享,TAIDE需要每年支出資料授權費用,長遠來說頗有壓力。此外,想採購合法資料不只有成本考量,資料擁有者也未必知道應該以何種價格與模式授權給模型開發者。

至於企業的模糊以對,有模型開發者私下向透露,這是有意為之。因為台灣現行著作權法規,尚未明確處理訓練AI模型,是否屬於合理使用(fair use)。若企業貿然取用網路資料並用於訓練模型,可能有侵權疑慮,因此即便在論文裡,也都無法說清楚細節。

企業可能會擔心侵權,政府則有使用者付費的壓力,對照之下,倘若要號召蒐集資料,位於民間、提倡公共利益的IMA恰好處在適合推行的位置。

「我蓋個碼頭,不太可能靠一個漁民,或者靠一家漁業公司,還得是公共建設,而且一旦做了,就能讓大家都可以用。」蔡祈岩表示,期待能夠完善資料的基礎建設,讓本土和國際級的模型業者,都能夠充實中文語料。

主動推廣本土資料,讓大廠訓練模型能想到台灣

充實繁體中文語料的好處,在於讓模型能夠更懂台灣。

胡長松解釋,語言的意義不只在於表層的詞彙選擇,究竟要講馬鈴薯還是土豆。「語言背後的價值觀正在影響 AI,這事關重大,」因為語言背後,還能夠反映出文化與價值觀。

蔡祈岩補充,他更傾向於使用「AI主權」,而非「主權AI」,因為IMA推動計畫的目標,不是要打造能夠由台灣控制的AI模型,而是要讓全世界的AI模型在台灣落地時,都能夠發揮台灣應用的主體性。

目前OpenAI、Google等模型開發商的訓練資料集沒有足夠的繁體中文資料,但問題不在於他們不願使用繁中資料,而是在於他們可能無法取得。

「我們也會主動出擊,接觸這些國際AI公司,告訴他們有這個東西,也會和他們討論格式、缺乏的語料,跟國際協作。」如此一來,使用ChatGPT或者Gemini時,就不用擔心簡中腔,或者錯把國慶日當成十月一日的窘境。

目前,IMA正在多頭並進準備語料,除了向創作者尋求授權以外,也會尋找已經沒有版權的公共領域資料,並且參考維基百科共同編輯的框架,號召民眾翻譯缺乏繁體中文、台語的條目,藉此擴大Taiwan Tongues的語料範圍。

有課本、考題跟教案,才能真正傳遞台灣知識

蒐集資料,只是Taiwan Tongues計畫的第一步。本週(7/4)的記者會上,Taiwan Tongues正式端出「Taiwan Tongues Scoring」資料集,用來測試AI模型有多了解台灣,包含用語、句法、價值觀和文化,都在評測範圍。

胡長松援引電腦科學的用語,「這就是在測試文化上的語境(context),」不只會問類似「象山在哪裡」的知識性問題,也會有「世界上有沒有神明的存在」這類偏向文化的提問。

測試模型的Taiwan Tongues分數,不是要政治審查,而是想兼顧文化主權以及商業應用場景,讓模型能夠更在地、更懂台灣。

有了語料作為課本,還有測試資料集作為考卷,最後還缺課程。Taiwan Tongues計畫的參與者群聯電子,還會提供訓練框架,輔助有意提升模型台灣理解能力的企業,微調客製化模型。

「我們希望全世界的AI,在台灣就講台灣腔。」率先響應計畫,捐出約百萬字台語著作內容的胡長松感性地說,希望讓AI可以懂台灣的文字、台灣的語言,藉此讓台灣的存在感和影響力,能夠更為深遠。這也就是Taiwan Tongues的終極目標了。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

查看原始文章

更多理財相關文章

01

【中獎清冊一次看】5-6月期統一發票開出17張特別獎 58元五金轉接頭中千萬獎

太報
02

不吹冷氣、「白飯+玉子燒」已是奢侈餐…他自創「每月零圓」生活法,45歲存到2千萬提早退休

幸福熟齡 X 今周刊
03

17.53億威力彩得主現身!三寶爸失眠2天 父子「大耳垂偏財運」資產配置曝光

鏡週刊
04

台灣關稅 20% 痛苦指數攀高峰!低毛利「九大產業」具高殺傷力

科技新報
05

跟著川普賺1/大而美法案助攻 這2檔ETF押到翻倍飆股今年狂噴

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 0

沒有留言。

最新消息

台積電 2 奈米洩密案檢調介入調查,可能牽扯半導體設備大廠令業界震驚

科技新報

AI 基準測試平台 Kaggle Game Arena 登場,頂尖模型首戰西洋棋

科技新報

美6月貿易逆差縮小 進口商努力因應關稅影響

中央通訊社

微軟研究:這10種工作最危險!你中槍了嗎?

anue鉅亨網

顛覆刻板印象!Z世代最不愛全遠距工作 渴望面對面互動

anue鉅亨網

鉅亨速報 - Factset 最新調查:LATAM Airlines Group SA Sponsored ADR(LTM-US)EPS預估上修至4.43元,預估目標價為49.39元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Allison Transmission控股(ALSN-US)EPS預估下修至8.32元,預估目標價為102.50元

anue鉅亨網

鉅亨速報 - Factset 最新調查:派拉蒙全球(PARA-US)EPS預估上修至1.29元,預估目標價為11.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Rocket Lab USA IncRKLB-US的目標價調升至42.5元,幅度約13.33%

anue鉅亨網

開發冷板散熱技術!國碩自研「Di-Fin 直接成型鰭片技術」亮相

科技新報

「日本人型機器人之父」石黑浩確定來台!下月 SEMICON 登台開講

科技新報

盤中速報 - CFX大跌8.84%,報0.2082美元

anue鉅亨網

因應大電流供應挑戰,村田製作所 OCP 大秀高靈活電源管理解決方案

科技新報

合成生物學之父 George Church 演講!基因編輯神手分享 AI 生技製藥應用

科技新報

茂訊 本公司處分Mildef Group AB股票

MoneyDJ理財網

8/5~8/11 限定!LINE 貼圖《PP mini 小小企鵝》變身動畫主角快閃 2025 台灣文博會黑潮星樂園

ifans 林小旭

美降息前景不明 歐股收盤漲跌互見

中央通訊社

博通布局開放性資料中心網路方案,挑戰輝達 NVLink 與 NVSwitch 生態系

科技新報

交通部成立AI推動委員會 擘劃創新應用及治理

anue鉅亨網

〈房產〉現代化商辦需求提升中 新北市沿捷運開發以新莊最熱門

anue鉅亨網

馬來西亞關稅塵埃落定 戰略性外交換取19%稅率 但經濟提振有限

優分析

電視面板價格跌勢收斂,部分尺寸止穩

科技新報

杜邦上調全年展望 第二季業績強勁抵銷關稅衝擊

anue鉅亨網

鉅亨速報 - Factset 最新調查:CNH Industrial NV(CNH-US)EPS預估下修至0.61元,預估目標價為15.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:美卡多(MELI-US)EPS預估下修至47.77元,預估目標價為2,887.50元

anue鉅亨網

鉅亨速報 - Factset 最新調查:BWX科技(BWXT-US)EPS預估上修至3.61元,預估目標價為155.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Wayfair公司(W-US)EPS預估上修至1.83元,預估目標價為81.00元

anue鉅亨網

台積電2奈米外洩  陸行之:應告Rapidus東京威力科創、至少拿20%技術股權

太報

鉅亨速報 - Factset 最新調查:BWX科技BWXT-US的目標價調升至155元,幅度約3.33%

anue鉅亨網

鉅亨速報 - Factset 最新調查:Antero Midstream CorpAM-US的目標價調升至18元,幅度約5.88%

anue鉅亨網

川普對普丁失去耐心 嗆油價再跌10美元俄就沒錢打仗

anue鉅亨網

外匯速報 - 美元/墨西哥披索(USDMXN) 大跌0.79%,報18.7447元

anue鉅亨網

倒數24小時!川普揚言對印度加徵更高關稅 施壓終止購買俄國原油

anue鉅亨網

盤中速報 - SuperRare大漲20.97%,報0.062美元

anue鉅亨網

盤中速報 - Bonk大跌8.19%,報0美元

anue鉅亨網

傳 SK 海力士 HBM4 報價大漲 70%,與 NVIDIA 追加談判陷膠著

科技新報

台股創5個月新高 AI族群.中小股齊衝下一步?上週ETF受益人增減看誰是人氣王?

民視新聞網
影音

台股創5個月新高 AI族群.中小股齊衝下一步?上週ETF受益人增減看誰是人氣王?

民視新聞影音

川普計畫對藥品先徵收「小額關稅」 一週內公布細節

優分析

MM行事曆

財經M平方行事曆