創用 CC 發起「CC signals」AI 時代資料共享框架,標註資料「如何」開放 AI 訓練
為了應對 AI 模型大規模使用網路內容所帶來的挑戰,重建數位共享生態系的平衡,非營利組織創用 CC(Creative Commons)在 6/27 發起「CC Signals」框架,並預計在 2025 年 11 月推出 Alpha 測試版本。
CC Signals 讓資料持有者能清楚表明內容是否以及如何可被機器重複使用,特別是在 AI 模型訓練時。同時,CC Signals 也提供一套法律與技術架構,協助資料掌握者與使用者建立更公平透明的資料共享模式。
為什麼現在需要 CC Signals 框架?
創用 CC 指出,過去 20 年,搜尋引擎與數位典藏等機器對於網路資料的重複利用,主要遵循基於互惠的社會契約,反映人們分享作品的合理預期。然而,AI 技術飛速發展,創用 CC 觀察到這種原有的社會契約不只被破壞,導致經濟利益不均,更引發內容「圍堵」現象──許多創作者選擇將內容下架、設定付費牆,或使用更嚴格的授權限制。
例如,Reddit 透過 robots.txt 檔案來限制機器人抓取其網站資料。Cloudflare 則在研究收費機制,向抓取資料的 AI 機器人收費,並開發混淆工具來干擾這些機器人。而一些開源開發者則打造工具,專門拖慢或浪費不遵守「禁止爬取」規範的 AI 爬蟲資源。
另一方面,現有工具和法律已無法滿足人們在 AI 時代對於版權表達細緻偏好的需求,創用 CC 指出,機器存取內容的規範如 robots.txt,靈活性差且實施效果不佳,但是擴大著作權保護範圍仍可能賦予知識的壟斷權,並將權利集中於大型權利人,而非創作者本身。像是社群平台 X 曾做出允許第三方使用其公開資料來訓練模型的變更,但是後來又撤回該決策。
觀察到目前許多 AI 版權問題的回應方式往往是「全有或全無」,創用 CC 認為這可能無意中限制長期以來被認為有社會價值的文字和資料探勘(TDM)用途,導致知識無法被用於公共利益目的,例如錯誤資訊偵測、研究等。因此,CC Signals 提出另一套解法,以服務不同程度的法律約束力與道德訴求,類似現今廣泛用於開放授權作品的 Creative Commons 授權條款。
CC Signals 將如何規範資料使用?
根據創用 CC,CC Signals 是一個偏好信號框架,讓內容管理者表明其機器重用偏好,並鼓勵 AI 開發者回饋共享資源。該框架最初包括 4 個信號要素,以「互惠」為核心:
第一,歸屬(Credit):要求使用者根據使用的方式、手段與情境,適當給予來源註明。這至少要求註明其所使用的訓練資料集,並且在技術可行時,輸出內容應註明原始資料來源並提供連結。
第二,直接貢獻(Direct Contribution):要求使用者根據其對資產的使用情況及財力,向內容宣告方提供金錢或其他支持,以支持其開發與維護這些資產。這項規範並非為了進行商業交易,而是支持宣告方的永續發展。
第三,生態系貢獻(Ecosystem Contribution):要求使用者根據其對資產的使用及其財力,向其所受益的生態系提供金錢或實物支持。這一要素目的在鼓勵回饋行為。
第四,開放(Open):要求所使用的 AI 系統必須是開放的,例如滿足 Model Openness Framework(MOF)或 Open Source AI Definition(OSAID)的標準。
創用 CC 指出,CC Signal 的成功將仰賴 AI 開發者的自願參與,並承諾以透明的方式和合作夥伴與社群共同推動該框架發展。其正積極徵求公眾意見與建議,未來幾個月內持續開放回饋。
*本文部分初稿由 AI 生成,經《TechOrange》編撰,資料來源:creative-commons、《TechCrunch》,首圖來源:Creative Commons
留言 0