
台版ChatGPT、國科會可信任AI對話引擎TAIDE,礙於資料量太少、早就停止更新。為促進開放資料運用,數發部官員表示,目前正研擬促進資料創新利用發展條例草案,並規劃打造台灣主權AI訓練語料資料庫,希望滿足TAIDE訓練需求。
中國DeepSeek AI聊天機器人儘管備受爭議,但可預料在甫登場的巴黎AI高峰會將成為話題,而反觀台版ChatGPT、國科會可信任AI對話引擎 (Trustworthy AI Dialogue Engine, TAIDE)」,由於資料量太少,且受限於著作權法等,難以擴大使用,於2024年5月就停止更新。
為促進開放資料運用,數發部資料創新司司長莊明芬表示,目前正研擬促進資料創新利用發展條例草案,今年首季將跟各部會與專家學者溝通,後續再做草案預告,今年也規劃打造台灣主權AI訓練語料資料庫,希望滿足TAIDE訓練需求。她說:『(原音)我們在今年會希望把這個這樣子的資料的流通,能夠建置一個平台讓各界可以來運用,那當然在第一步的部分我們是希望政府先行;也就是說政府擁有大量多元化的資料,以及塊狀的語料我們是能夠優先的釋出,那第二步當然就會邀請公私協作的方式,邀請民間的部分也來共襄盛舉,資料可以貢獻出來。』
莊明芬指出,「資料創新利用發展條例」草案重點有五項,一是律定資料基礎工程,配合AI發展,提供高品質、可信賴的資料供民間運用;第二,會擴大資料開放運用,讓高應用價值跟品質管理能夠落實在各個政府機關;第三是提出資料創新措施,將降低企業進入資料應用門檻,評估部分共享資料可以減免收費;第四是獎勵資料創新,讓資料創新成果可以回饋給民眾使用;第五則是讓產業間資料共享及活絡。
此外,數發部也規劃今年打造台灣主權AI訓練語料資料庫。莊明芬表示,過去以開放資料為核心,約有5萬多筆資料集,盤點有1000多筆聚焦在文化部國家記憶、客委會客語資料、原民會原民資料等,希望釋出讓各界做運用;去年底也邀請語料建置機關進行討論,希望優化語料申請、收費與授權方式,以滿足TAIDE語料訓練需求,盼今年建置平台,讓各界可運用語料。
至於涉及個資法的部分,莊明芬說,將與個資會討論,針對個資的去識別化流程跟步驟做好律定,以利未來資料的運用。