非洲語言在 AI 革命時被遺忘?這份史上最大語音資料集要改變現況
在非洲,語言的多樣性是全球最豐富的之一,然而在人工智慧(AI)的發展中,許多非洲語言卻被忽視。
這一現象的根本原因在於缺乏投資和可用資料,導致許多非洲語言在AI工具的訓練中缺乏足夠的文本資料。大多數當前使用的AI工具,如ChatGPT,主要基於英語及其他歐洲語言和中文進行訓練,這使得非洲語言的使用者面臨被排除在外的風險。
為了解決這一問題,研究人員最近發布了被認為是目前最大的非洲語言資料集。這一專案由南非普勒托利亞大學的Vukosi Marivate教授主導,他指出,科技必須反映人們的語言和文化,否則將有一整個群體被遺忘。這個名為「非洲下一代聲音」的專案,集合了語言學家和電腦科學家,旨在為18種非洲語言創建AI準備的資料集。
儘管這僅僅是超過2,000種語言中的一小部分,但參與者希望未來能夠擴展。該團隊在兩年內錄製了9,000小時的語音,涵蓋了肯亞、奈及利亞和南非的日常場景,包括農業、健康和教育等領域。錄製的語言包括肯亞的基庫尤語和多盧語、奈及利亞的豪薩語和約魯巴語,以及南非的祖魯語和蒂維達語(Venda),這些語言的使用者數以百萬計。
這項研究得到了220萬美元的比爾和梅琳達·蓋茲基金會的資助,資料將以開放存取的方式提供,讓開發者能夠建立能夠翻譯、轉錄和回應非洲語言的工具。根據Marivate教授的說法,已有一些小型案例顯示,原住民語言在AI中的應用能夠解決非洲的實際挑戰。
例如,南非的農民Kelebogile Mosime利用一款名為AI-Farmer的應用,該應用支持多種南非語言,幫助她解決農業中的各種問題。Mosime表示,能夠使用她的母語Setswana進行交流,讓她在面對挑戰時能夠獲得有用的建議。
此外,南非初創公司Lelapa AI也在為銀行和電信公司開發非洲語言的AI工具。該公司的首席執行官Pelonomi Moiloa指出,現有的服務對於不會說英語的南非人來說,並不僅僅是方便的問題,還可能導致他們錯過重要的服務,如醫療、銀行或政府支持。
Marivate教授強調,語言不僅是交流的工具,更是想像力的通道,缺乏非洲語言的倡議將使我們失去的不僅僅是資料,還有文化和歷史的理解。
(首圖來源:pixabay)