日本麻疹疫情快速升溫 疾管署籲赴日旅遊先接種疫苗
政府推動「台灣主權AI訓練語料庫」,目前上架超過6億個詞元(token)。數發部次長侯宜秀指出,資料與人才是發展AI的重要護城河,主權語料庫有助強化在地化模型發展。數發部未來將與各部會協作,持續累積符合台灣文化與價值的高品質數據。
為推動主權AI,數發部建置「台灣主權AI訓練語料庫」,目前有超過200個政府機關投入,上架超過2,000筆資料集、6億個詞元(token),收錄具台灣文化特色的資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域。資料如同AI教材,幫助AI模型學會更自然、貼近台灣社會的語言表達。
侯宜秀指出,AI資料庫中正體中文代表性不足,因此,推動屬於台灣的語料庫至關重要,資料更是發展AI的重要護城河,她說:『(原音)AI算力其實不見得是護城河,真正的護城河其實是資料和人才,這兩個部分數位發展部都會非常著力來推動。尤其在資料這一層,台灣專有的這些資料,除了我們以外,沒有其他的國家或是國際性的公司會來協助我們,因此,我們必須要在這方面建立一個好的制度,而且是持續不斷地累積。』
她說,除了政府單位,數發部也將攜手民間單位,包含開發者、研究單位、學校,以及Google、Anthropic等AI開發公司,共同使用語料庫。數發部也會提誘因,像是金質獎章機制,吸引更多政府部門參與。
數發部補充,第一階段由中央機關先行,建立高品質語料基礎;接下來將邀集地方政府投入,擴大語料的廣度與在地性。第三階段將導入民間量能,提供具台灣觀點、文化特色的高品質語料,用來訓練主權AI模型。
數發部除了推動語料庫,也提出「促進資料創新利用發展條例」,目前已送交行政院。侯宜秀指出,相信該條例將儘速送交立法院審議,進一步完善資料治理與應用。(編輯:宋皖媛)
延伸閱讀