Face au développement rapide des technologies émergentes telles que l’intelligence artificielle et au rôle essentiel des données dans la formation et l’application de l’IA, le ministère du Numérique œuvre à l’élaboration d’un « Règlement sur la promotion du développement de l’utilisation innovante des données », qui sera publié d’ici le 15 août. Les responsables espèrent qu’après la mise en œuvre de ce cadre, les ministères et agences gouvernementales pourront publier plus aisément et en toute confiance les données gouvernementales protégées par les droits d’auteur, promouvoir conjointement le développement de l’environnement de l’IA et établir un modèle d’IA adapté à la perspective taïwanaise. Ce corpus linguistique sûr et protégé destiné à l'entraînement de l’intelligence artificielle favorisera, d’ici la fin de l’année, une IA souveraine.
Le vice-ministre Lin Yi-jing (林宜敬), a souligné que l'entraînement des modèles d’IA nécessite un volume important de données et qu’en plus des efforts de collecte des données du gouvernement ou du secteur privé, le ministère du Numérique espérait encourager un environnement de partage des données sûr et transparent, y compris au-delà des frontières : « Nous espérons que d’autres pays fourniront des données à Taïwan, de même que nous ouvrirons l’accès à nos données aux autres pays. Il s’agit là, d’une part, d’un bénéfice mutuel, et d’autre part, nous espérons que les modèles d’IA entraînés dans le monde entier adopteront la perspective taïwanaise. En effet, ce n’est que lorsque nous aurons publié les données fiables de Taïwan que le modèle d’entraînement LLM de l’IA pourra adopter la perspective taïwanaise. »
Après sa mise en ligne prévue au cours du quatrième trimestre de cette année, le corpus d’IA souveraine sera mis à disposition, sur demande, des secteurs publics que privés. Le ministère du Numérique a expliqué que les données ouvertes, promues depuis des années par le gouvernement, sont régies par des licences standardisées permettant leur libre usage par les IA. Cependant, les grands modèles de langage (LLM) nécessitent surtout des textes cohérents et en continu, plutôt que des données structurées ou statistiques, ce qui n’est le cas que pour un millier des plus de 50 000 données collectées en contenu textuel. À l’avenir, le corpus linguistique pour une IA souveraine à Taïwan inclura tout type de documents à données ouvertes constituant la base d’entraînement de l’IA.