跳到主要內容區塊
::: 回首頁| 網站導覽| YouTube| Podcasts|
|
推播熱門報導

成立主權AI語料庫 數發部:為在地化模型護城河

2025-12-24 16:05(12-24 18:22更新)
撰稿編輯:蔡芃敏
為推動主權AI,數發部建置「台灣主權AI訓練語料庫」。數發部次長侯宜秀(左)指出,資料與人才是發展AI的重要護城河。(蔡芃敏 攝)
圖片來源:採訪
為推動主權AI,數發部建置「台灣主權AI訓練語料庫」。數發部次長侯宜秀(左)指出,資料與人才是發展AI的重要護城河。(蔡芃敏 攝)

政府推動「台灣主權AI訓練語料庫」,目前上架超過6億個詞元(token)。數發部次長侯宜秀指出,資料與人才是發展AI的重要護城河,主權語料庫有助強化在地化模型發展。數發部未來將與各部會協作,持續累積符合台灣文化與價值的高品質數據。

為推動主權AI,數發部建置「台灣主權AI訓練語料庫」,目前有超過200個政府機關投入,上架超過2,000筆資料集、6億個詞元(token),收錄具台灣文化特色的資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域。資料如同AI教材,幫助AI模型學會更自然、貼近台灣社會的語言表達。

侯宜秀指出,AI資料庫中正體中文代表性不足,因此,推動屬於台灣的語料庫至關重要,資料更是發展AI的重要護城河,她說:『(原音)AI算力其實不見得是護城河,真正的護城河其實是資料和人才,這兩個部分數位發展部都會非常著力來推動。尤其在資料這一層,台灣專有的這些資料,除了我們以外,沒有其他的國家或是國際性的公司會來協助我們,因此,我們必須要在這方面建立一個好的制度,而且是持續不斷地累積。』

她說,除了政府單位,數發部也將攜手民間單位,包含開發者、研究單位、學校,以及Google、Anthropic等AI開發公司,共同使用語料庫。數發部也會提誘因,像是金質獎章機制,吸引更多政府部門參與。

數發部補充,第一階段由中央機關先行,建立高品質語料基礎;接下來將邀集地方政府投入,擴大語料的廣度與在地性。第三階段將導入民間量能,提供具台灣觀點、文化特色的高品質語料,用來訓練主權AI模型。

數發部除了推動語料庫,也提出「促進資料創新利用發展條例」,目前已送交行政院。侯宜秀指出,相信該條例將儘速送交立法院審議,進一步完善資料治理與應用。(編輯:宋皖媛)

延伸閱讀

數發部建主權AI訓練語料庫 政府帶頭釋出資料減少版權糾紛

數發部推動主權AI 預計第4季釋出台灣語資料庫

為提供您更好的網站服務,本網站使用cookies。
若您繼續瀏覽網頁即表示您同意我們的cookies政策,進一步了解隱私權政策。 
我了解