Skip to the main content block
::: Accueil| Plan du site| Podcasts|
|
Language
Les plus consultés
繁體中文 简体中文 English Français Deutsch Indonesian 日本語 한국어 Русский Español ภาษาไทย Tiếng Việt Tagalog Bahasa Melayu Українська Plan du site

Taïwan élabore un corpus linguistique pour une IA souveraine

16/07/2025 13:27
Par: La Rédaction
Le ministère du Numérique présente son projet de corpus linguistique pour une IA souveraine (photo CNA)
Le ministère du Numérique présente son projet de corpus linguistique pour une IA souveraine (photo CNA)

Face au développement rapide des technologies émergentes telles que l’intelligence artificielle et au rôle essentiel des données dans la formation et l’application de l’IA, le ministère du Numérique œuvre à l’élaboration d’un « Règlement sur la promotion du développement de l’utilisation innovante des données », qui sera publié d’ici le 15 août. Les responsables espèrent qu’après la mise en œuvre de ce cadre, les ministères et agences gouvernementales pourront publier plus aisément et en toute confiance les données gouvernementales protégées par les droits d’auteur, promouvoir conjointement le développement de l’environnement de l’IA et établir un modèle d’IA adapté à la perspective taïwanaise. Ce corpus linguistique sûr et protégé destiné à l'entraînement de l’intelligence artificielle favorisera, d’ici la fin de l’année, une IA souveraine.

Le vice-ministre Lin Yi-jing (林宜敬), a souligné que l'entraînement des modèles d’IA nécessite un volume important de données et qu’en plus des efforts de collecte des données du gouvernement ou du secteur privé, le ministère du Numérique espérait encourager un environnement de partage des données sûr et transparent, y compris au-delà des frontières : « Nous espérons que d’autres pays fourniront des données à Taïwan, de même que nous ouvrirons l’accès à nos données aux autres pays. Il s’agit là, d’une part, d’un bénéfice mutuel, et d’autre part, nous espérons que les modèles d’IA entraînés dans le monde entier adopteront la perspective taïwanaise. En effet, ce n’est que lorsque nous aurons publié les données fiables de Taïwan que le modèle d’entraînement LLM de l’IA pourra adopter la perspective taïwanaise. »

Après sa mise en ligne prévue au cours du quatrième trimestre de cette année, le corpus d’IA souveraine sera mis à disposition, sur demande, des secteurs publics que privés. Le ministère du Numérique a expliqué que les données ouvertes, promues depuis des années par le gouvernement, sont régies par des licences standardisées permettant leur libre usage par les IA. Cependant, les grands modèles de langage (LLM) nécessitent surtout des textes cohérents et en continu, plutôt que des données structurées ou statistiques, ce qui n’est le cas que pour un millier des plus de 50 000 données collectées en contenu textuel. À l’avenir, le corpus linguistique pour une IA souveraine à Taïwan inclura tout type de documents à données ouvertes constituant la base d’entraînement de l’IA.

為提供您更好的網站服務,本網站使用cookies。

若您繼續瀏覽網頁即表示您同意我們的cookies政策,進一步了解隱私權政策。 

我了解