數發部擬推新法打造台灣主權AI訓練語料資料庫

2025-02-11 11:33(05-05 22:25更新)

撰稿編輯：楊文君

圖片來源：其他

人工智慧(AI)。示意圖。(Freepik圖庫)

台版ChatGPT、國科會可信任AI對話引擎TAIDE，礙於資料量太少、早就停止更新。為促進開放資料運用，數發部官員表示，目前正研擬促進資料創新利用發展條例草案，並規劃打造台灣主權AI訓練語料資料庫，希望滿足TAIDE訓練需求。

中國DeepSeek AI聊天機器人儘管備受爭議，但可預料在甫登場的巴黎AI高峰會將成為話題，而反觀台版ChatGPT、國科會可信任AI對話引擎 (Trustworthy AI Dialogue Engine, TAIDE)」，由於資料量太少，且受限於著作權法等，難以擴大使用，於2024年5月就停止更新。

為促進開放資料運用，數發部資料創新司司長莊明芬表示，目前正研擬促進資料創新利用發展條例草案，今年首季將跟各部會與專家學者溝通，後續再做草案預告，今年也規劃打造台灣主權AI訓練語料資料庫，希望滿足TAIDE訓練需求。她說：『(原音)我們在今年會希望把這個這樣子的資料的流通，能夠建置一個平台讓各界可以來運用，那當然在第一步的部分我們是希望政府先行；也就是說政府擁有大量多元化的資料，以及塊狀的語料我們是能夠優先的釋出，那第二步當然就會邀請公私協作的方式，邀請民間的部分也來共襄盛舉，資料可以貢獻出來。』

莊明芬指出，「資料創新利用發展條例」草案重點有五項，一是律定資料基礎工程，配合AI發展，提供高品質、可信賴的資料供民間運用；第二，會擴大資料開放運用，讓高應用價值跟品質管理能夠落實在各個政府機關；第三是提出資料創新措施，將降低企業進入資料應用門檻，評估部分共享資料可以減免收費；第四是獎勵資料創新，讓資料創新成果可以回饋給民眾使用；第五則是讓產業間資料共享及活絡。

此外，數發部也規劃今年打造台灣主權AI訓練語料資料庫。莊明芬表示，過去以開放資料為核心，約有5萬多筆資料集，盤點有1000多筆聚焦在文化部國家記憶、客委會客語資料、原民會原民資料等，希望釋出讓各界做運用；去年底也邀請語料建置機關進行討論，希望優化語料申請、收費與授權方式，以滿足TAIDE語料訓練需求，盼今年建置平台，讓各界可運用語料。

至於涉及個資法的部分，莊明芬說，將與個資會討論，針對個資的去識別化流程跟步驟做好律定，以利未來資料的運用。

回新聞總覽回上頁