생성형 인공지능(AI)는 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 기술로, 인간과 비슷한 수준의 이해와 표현력을 갖추기 위해서는 방대한 데이터와 이를 효율적으로 학습시키는 정교한 훈련 과정이 필요하다.
다만, 그동안 타이완에서 주로 사용하는 번체(繁體) 중국어 언어자료의 경우 저작권법으로 인해 개발단계에 대량 제공하기가 어려웠다.
중화민국 디지털발전부는 타이완 국내 AI 산업 생태계 경쟁력 강화를 위해 언어자료 측면에서 ‘타이완 주권 인공지능(AI) 훈련용 언어자료 저장고’를 구축하고, 대규모언어모델(LLM) 개발에 주력하고 있는 국내외 기업들에게 바로 사용 가능한 번체 중국어 언어자료를 무상 제공하겠다고 밝혔다.
또한 이들 기업들에게 번체 중국어 언어자료를 무상 제공함으로써 훈련 과정에 타이완에서 온 자료들을 더 많이 사용하게 하고, 대규모언어모델 교육 비용을 절감시키며, AI 기업과 저작물 저작자 간의 저작권 관련 분쟁을 최소화하도록 하겠다고 디지털발전부는 강조했다.
린이징(林宜敬) 디지털발전부 차장은 “생성형 AI 발전의 도전은 기술이 아닌 법과 정치에서의 도전”이며 “미국과 같은 대규모언어모델 개발 기업의 경우 우려하는 것은 개발에 드는 비용이 아닌 협상에 소요되는 시간과 비용”이라면서, “만약 우리가 번체 중국어 언어자료와 타이완 관점의 언어자료 저장고를 제공하지 못한다면 이들의 선택은 타이완 관련 내용(학습)을 피하는 것”이라고 설명했다.
때문에 일종의 ‘응급 처치’로 지금 할 수 있는 건 타이완 정부가 제공할 수 있는 정보를 최대한 빨리 제공하는 것 뿐이라고 린 디지털발전부 차장은 덧붙였다.