文/張陳基(國立聯合大學客家研究學院院長)
客家委員會近年來已投入大量資源,推動客語數位發展與語言科技研究。從《臺灣客語語料庫》、《臺灣客語語音資料庫》,到客語語音辨識、語音合成、機器翻譯及相關人工智慧技術研發,都已為臺灣客語AI奠定重要基礎。這些工作並不容易,因為客語具有多腔調特色,書面語與口語表達也有差異,加上各地豐富的生活詞彙、文化語彙與地方知識,要讓AI真正聽得懂、說得出、翻得準客語,本來就是高度困難的工程。
臺灣客語AI並不是從零開始。政府已有基礎建設,學界已有研究成果,民間也逐漸出現應用能量。接下來真正需要思考的是:如何讓這些成果從「建置完成」進一步走向「開放應用」,讓政府投入的資源真正成為全民可用的公共基礎建設。
下階段重點 從「建置新系統」走向「開放應用」
目前政府投入的成果,仍較偏向「可展示的平臺」,而尚未完全轉化為「全民可接取的數位公共財」。因此,未來臺灣客家AI政策,可制度化推動三個方向:語料開放、模型開放、服務開放。這三個開放的核心精神,是將客語AI定位為國家級語言公共基礎建設,而不是單一委辦計畫成果。
政策目的在透過開放授權與權利清理,擴大可用語料;透過模型中心,避免政府補助成果重複開發與計畫期中斷裂;透過標準化API與公共服務平臺,擴大學校、館舍、媒體、地方政府與民間企業的使用場景,讓客語在數位社會中從「被保存」走向「可被使用」。

語料開放:讓客語AI有更多可用的學習材料
首先是語料開放。AI要學會一種語言,最重要的基礎就是語料。語料可以理解為AI學習客語的材料,包括客語文章、教材、新聞、文學作品、影音字幕、口語對話、詞彙、句子、故事、地方志、村史與文化知識等。客委會自2017年起推動《臺灣客語語料庫》建置,並於2022年正式上線,目前官方公布已收錄約600萬字書面語料及40萬字口語語料。這項成果對客語保存、研究與教學具有重要意義。
不過,進入AI時代後,語料庫不能只停留在查詢與保存,也要能支援AI訓練、教學應用與社會創新服務。從研究單位實際使用經驗來看,目前客語語料仍面臨授權限制、資料重複、部分內容無法下載或不易直接轉作AI訓練等問題,使官方公布規模與實際可用規模之間仍有落差。建議下一階段以建置1000萬字以上、可實際開放使用之客語語料為政策目標,整合歷年出版品、客家文學、客語教材、客家新聞、影音字幕及海外客家文獻,建立真正能支撐客語AI發展的國家級語料基礎建設。
模型開放:讓客語AI成果不再停於單一計畫
其次是模型開放。模型就是讓AI具備某種能力的核心技術,例如語音辨識模型可以把客語聲音轉成文字,語音合成模型可以讓電腦說出客語,機器翻譯模型可以進行華語與客語之間的翻譯。過去十多年來,政府投入大量經費建置客語語音辨識、語音合成、機器翻譯等核心技術,這些成果非常珍貴。
因此,建議客家委員會建立客語AI模型中心,統整歷年計畫成果,將政府經費支持建置的模型逐步整理、保存、測試、維運,並開放給學校、研究機構、地方政府及民間團隊申請使用。模型開放不代表毫無管理,而是建立分級授權制度,依研究、教學、公益與商業用途訂定不同規範。如此一來,客語AI才能從「各做各的」走向「共同累積」。
服務開放:讓客語AI走進學校、社區與日常
語料與模型都很重要,但如果一般人用不到,客語AI仍難以發揮影響力。目前客委會已建置客語語音資料庫及相關語言科技成果,但部分使用者仍反映系統穩定性、申請流程、服務能量與串接便利性有待提升。
未來應建立國家級客語AI公共服務平臺,整合語音辨識、語音合成、機器翻譯、詞典查詢、拼音轉換等功能,提供標準化API服務,讓學校、博物館、圖書館、媒體機構、社區團體及民間企業可以直接串接應用。例如,學校可用AI輔助客語學習,博物館可提供客語導覽,地方政府可發展客語客服,媒體可製作客語字幕,社區可保存地方故事。服務開放的目標,就是讓客語AI不只存在於計畫書、展示會或研究系統裡,而是真正進入生活現場。
國際經驗:技術外更要社群治理與日常使用
少數語言或原住民族語言要在AI時代維持生命力,關鍵不只是建立模型,還要有長期公共資金投入、開放授權、語言權利法制、教育與公共服務場域導入,以及社群治理與資料主權機制。威爾斯、愛爾蘭、毛利、加拿大原住民族與薩米等案例都顯示,若只有技術建置而缺少社群治理與日常使用,語言能力不一定能轉化為生活使用;若只有語言政策而缺少開放數位基礎建設,也難以進入AI生態。

建立可衡量政策目標 讓客語AI從願景走向落實
因此,未來客語AI政策也需要可衡量的目標。短期可檢視語料、模型與服務是否看得見、找得到、用得上;中期可觀察學校、館舍、媒體與地方政府導入情形;長期則應追蹤語言能力、日常使用、文化資產活化與制度永續。建議可設定可公開授權客語書面語料、口語轉寫、語音時數、模型中心可申請模型數、API使用量、公共服務導入據點、校園導入學校數及客語AI年活躍使用者等指標,讓政策可以被追蹤、被檢驗、被修正。
客語AI不是科技炫技,而是語言復振的新工具。它的目的不是取代人講客語,而是創造更多使用客語的機會。未來若能以「語料開放、模型開放、服務開放」為核心,將政府長期投入的成果轉化為全民可用的公共基礎建設,臺灣客語就有機會在數位社會中被更多人聽見、看見、學習與使用。這正是《臺灣客家AI政策白皮書芻議》最重要的核心精神:讓客語AI從建置成果走向開放應用,成為支持客語復振、文化傳承與社會創新的數位公共財。

