跳到主要內容區塊
::: 回首頁| 網站導覽| YouTube| Podcasts|
|
推播熱門報導

數發部推動主權AI 預計第4季釋出台灣語資料庫

2025-07-15 13:22(07-15 14:09更新)
撰稿編輯:楊文君
數發部15日舉行「促進資料創新利用發展條例」草案記者會,數發部資料創新司司長莊明芬(圖)說明草案內容。
圖片來源:中央社
數發部15日舉行「促進資料創新利用發展條例」草案記者會,數發部資料創新司司長莊明芬(圖)說明草案內容。

數發部為了促進資料開放,已預告「促進資料創新利用發展條例」草案,但AI發展快速,法令恐緩不濟急,數發部今天(15)表示,目前正研擬「台灣主權AI訓練語料授權條款」,讓各部會盤點適合的資料,未來可上架到台灣主權AI語言資料庫,預計第4季釋出,後續開放民間與政府機關等申請使用。

數發部資料創新司司長莊明芬說明,過去多年推動的政府開放資料是採取標準化授權,可完全公開讓AI運用,但大型語言模型需要的不見得是開放資料中的結構化資料、或統計等,更需要的是連貫性的文字段落等文本性資料,5萬多筆開放資料中這類文本資料約1000多筆。為適當消弭AI訓練資料在著作權法上的爭議,數發部近期研擬「台灣主權AI訓練語料授權條款」提供給各機關參考。

莊明芬指出,這類非專屬授權不是授權給特定人使用,部會透過台灣主權AI訓練語料授權條款盤點哪些資料適合上架,若有著作權議題也要先處理。外界關心的客委會、教育部、原民會、文化部等也在盤點手上的語言資料,希望第4季釋出語料庫。

至於釋出的語料量,莊明芬指出,語料庫可能以量化單位Token來作為AI訓練量的單位,不是用過去釋出多少資料量來描述。預期語料庫有些是政府開放資料、政府施政報告或政府出版品等,語料量需要時間慢慢累積,隨著資料增加,未來將逐步納入語料庫。(編輯:鍾錦隆)

為提供您更好的網站服務,本網站使用cookies。
若您繼續瀏覽網頁即表示您同意我們的cookies政策,進一步了解隱私權政策。 
我了解