請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

簡轉繁圖書大量湧入、中國歷史論述衝擊台灣史觀…國際主流LLM僅1%繁中語料,綠委籲文化內容納主權AI訓練

今周刊

更新於 05月20日06:00 • 發布於 05月20日06:00

鄭鴻達

圖片 Shutterstock 提供

民進黨立委陳培瑜、吳思瑤周二(5/19)召開「文化石油:AI主權建設下的出版內容產業未來」座談會,邀集政府機關、專家學者與文化內容產業,共探政府應如何訂定制度與內容產業對接,並提供實質的預算支持,以確保台灣文化在雲端時代的主權。

陳培瑜示警:國際主流LLM繁中語料僅1%

陳培瑜指出,AI是一台精密運作的機器,而「文化內容」正是驅動這台機器運作的燃料,過去的老報紙、出版品、影視動畫、廣播節目、音樂、表演等,都是AI理解台灣的養分,因此內容產業絕不能在AI浪潮中缺席。

陳培瑜說,然而,當前政府的政策視野尚未將內容產業納入AI發展的關鍵產業。她呼籲,政府未來必須將優質內容的獲取與轉譯機制,實質納入政策規劃、預算編列及法律制定的整體藍圖中。

陳培瑜強調,現今國際主流大語言模型(LLM)高達50%以英文訓練,只有約1%為繁體中文,面臨嚴重的邊緣化危機。雖然數發部與國科會目前以政府公開資料與無償資料建設「主權AI語料庫」,但內容產業所擁有最能代表台灣文化底蘊的珍貴語料,目前皆未納入主權AI訓練語料中。

陳培瑜期待,透過此次座談會邀請產官學共同研商可行的內容回饋、計價機制及加工製作預算,創造國家建設與文化內容產業的雙贏。

TAIDE缺在地文化語料,吳思瑤:恐成沒靈魂空殼

吳思瑤提到,台灣雖為半導體王國,但本地主權AI(TAIDE)若缺乏在地文化語料,恐成為「沒有靈魂的空殼」。她透露,質詢國科會、中研院時發現TAIDE部分評測落後,主因在於核心語料因授權問題尚未納入。

吳思瑤強調「創作有價」,單一創作者難以與科技巨頭議價。她呼籲參考歐盟《AI法案》與「公共出借權」精神,並在現有的制度中,借鏡「公共工程委員會」硬體工程定價機制。

吳思瑤認為,行政院應在「AI新十大建設」中跨部會總動員,由國家出面建立軟體與內容計價機制,完善著作權授權AI的集體管理組織,打造公平的「集體授權與分潤平台」,讓文化產權成為台灣主權AI最強大的後盾。

出版公會盼政府研商授權模式 城邦籲政府界定AI內容使用範圍

中華民國出版商業同業公會全國聯合會理事長吳政鴻指出,希望各大語言模型都能有台灣自己的資料,希望政府部門都能針對出版、雜誌或報紙研商出一個授權模式。另外,因為出版業內部的版權合約中極少有AI相關授權,希望政府部門也可以提供合約做法參考的模式。

城邦媒體集團法務總監邱大山指出,內容產業的型態極其複雜,涵蓋文字、圖片、影像等多重媒介,若要轉化為餵養AI的訓練資料包,必須經過資料清洗、加工及嚴格的品質控管。

由於不同內容業者的商業模式差異甚大,例如採訂閱制的公司對於AI授權態度便相對謹慎,邱大山建議政府應對AI內容的使用範圍做出明確界定,並在制度設計上,依據「製作加工費」與「授權使用費」的不同性質,提供更具彈性的階段性合作方案。

中國歷史論述恐衝擊台灣史觀

城邦媒體協理祝本堯表示,目前各出版或媒體公司內存的數位資料庫,皆難以直接投入AI訓練,政府未來是否會編列專項預算協助產業進行數據加工,且該筆經費究竟是定義為加工製作費,抑或包含授權使用費,皆需進一步釐清。

祝本堯示警,中國的歷史論述極易在社群媒體及演算法的幫助下,與台灣社會多年深耕的史觀分庭抗禮,足見台灣非常迫切需要集結各界力量,攜手完成主權AI的建設。

親子天下示警簡轉繁圖書大量湧入

國立故宮博物院前院長吳密察認為,AI浪潮帶來的法律與產業衝擊極為複雜,對於較商業的內容對價機制,他認為必須優先釐清權責主管機關,才能整合政策、資源與相關責任。

至於台灣的文史資料,吳密察建議立法院教育及文化委員會所主管的政府機關,都應作出具體的時程承諾,針對政府內部的資料研議明確的語料規格,解決各類政府補助、委託案及採購標案的產權與授權問題。

親子天下副總經理林彥傑強調,近年中國圖書大舉進口,申請國家圖書館的ISBN,每年都有大量簡轉繁的紙本、電子、有聲等圖書進到台灣市場,如果台灣要做主權AI,要如何防範中國圖書混淆語料庫?

林彥傑直言,若完全以自由市場機制,中國很容易就能利用大量的出版品淹本土內容,因此建議未來訂定這個政策或法規時必須要訂有防範機制。

此外,因為標案及補助合約中未必有相關授權條款,政府的資料也不一定可以進到主權AI,林彥傑建議未來標案、補助等政府出資的內容可考慮訂有強制授權條款及罰則。

文化部支持合理授權回饋機制 數發部:已搜集12億token

文化部代表回應,支持合理授權及回饋機制,有利於產業長期發展與內容產製。針對產業定型化合約的訴求,文化部期待與各專業與產業共同產出這樣的合約。至於因AI造成的人才衝擊,文化部會在九月份所辦的全國文化會議提出討論。

數發部代表表示,我們必須建設自己的主權AI,並且確保有自己的乾淨語料。數發部已經在去年建置了「主權AI語料庫」,並且分階段進行,目前已經蒐集12億個token。

數發部代表說明,第一屆段先蒐集政府機關資料,第二階段希望民間響應,截至目前為止大概有30多家的民間公司及團體已經使用該語料庫。在授權機制上,數發部與經濟部智慧財產局合作訂定合理授權條款,已與200多個政府部門簽訂釋出資料。至於後續的推動,希望仰賴市場機制,建立合理的授權及回饋機制。

國科會代表說明,不論是電子書、知識庫或任何的文化內容,都需進一步加工處理,才能用於訓練AI。

國科會代表透露,近期已經在規劃透過科技預算,使用工具將非結構化變成結構化的資料,讓更多具有台灣文化背景的資料,成為可用的AI素材,使雲端上的台灣持續被看見,也達成公部門與民間雙贏的局面。

相關新聞:

世界29名超級電腦將上線 RAP平台助攻應用開發 算力中心揭幕 台灣主權AI須軟硬並重

更多今周刊文章
0到18歲成長津貼來了,普發5000月月領「最高領108萬」!賴清德:從結婚生子到托育、友善職場全面支援
520大禮包!0到18歲計畫曝光:育嬰假升級育兒假「6歲前可申請」…軍公教調薪、基本工資進度一次看

更多國內相關文章

01

新竹空軍基地火警原因曝光「洗油池起火」!一度傳幻象2000爆炸

台視
02

中共血洗台灣?他警告這群更慘:1萬人被殺

NOWNEWS今日新聞
03

5子女爆爭產!大地主「進不了起家厝」雨中辦告別式

民視新聞網
04

開到一半爆炸起火!嘉義火燒車意外 死者身分曝

EBC 東森新聞
05

帶15歲弟衝摩鐵「激烈交纏」 新竹八大女慘了

民視新聞網
06

省小錢慘了!彰化兩印刷業者排毒氣 環保局追繳7663萬空汙費

ETtoday新聞雲
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...