Intelligence artificielle et Francophonie

Intelligence artificielle et Francophonie

par Nadia Antonin

Intelligence artificielle

La 49e session plénière de l’Assemblée parlementaire de la Francophonie (APF) qui s’est tenue à Montréal début juillet 2024 a choisi comme thème général l’intelligence artificielle (IA). Les participants se sont interrogés sur la question de savoir comment cette nouvelle technologie pourrait servir et non nuire aux francophones.

Auparavant, le 10 décembre 2021, lors d’une conférence ministérielle de la Francophonie, l’Organisation internationale de la francophonie (OIF) avait présenté sa stratégie de la Francophonie numérique pour 2022-2026 en retenant entre autres comme objectifs : 1) "stimuler l’innovation au service de l’humain et encourager un développement et un usage inclusif des technologies numériques, telle l’intelligence artificielle, qui soit responsable et respectueux des droits de l’Homme"; "2) soutenir la recherche, le développement et les actions d’utilité francophone et leur diffusion dans le domaine des technologies numériques, y compris l’intelligence artificielle et l’apprentissage automatique" [ …] (voir glossaire).

Un rapport récent intitulé "IA : notre ambition pour la France" relate les travaux d’une Commission de l’intelligence artificielle qui a rassemblé des acteurs de différents secteurs (culturel, économique, technologique, recherche, … ) sous la co-présidence d’Anne Bouverot, présidente du conseil d’administration de l’ENS et de Philippe Aghion, professeur au Collège de France. Dans ce rapport, les auteurs rappellent que la France dispose d’un ensemble hors du commun de corpus en partie numérisés depuis les années 2000 […] "qui représente linguistiquement, artistiquement, culturellement un paysage intellectuel et émotionnel très large de la francophonie". Ces données patrimoniales représentent "un enjeu de diversité culturelle et de souveraineté". Cela étant, les auteurs déplorent "qu’à l’heure actuelle, les modèles d’IA sont moins performants en français qu’en anglais, ayant principalement été entrainés sur des corpus anglais".

Après avoir dressé un bref état des lieux de l’IA francophone, nous examinerons en quoi l’IA représente un défi pour la langue française.

  1. Bref état des lieux de l’IA francophone

Avec 327 millions de locuteurs francophones dans le monde en 2023 contre 321 millions en 2022, l’espace francophone produit 17 % du PIB mondial. Les deux tiers des francophones résident en Afrique. Grâce au Canada, au Québec et à la France, l’IA francophone tire son épingle du jeu. Le récent classement du Tortoise Global AI Index (mars 2022), qui mesure la vitalité des pays dans le domaine de l’IA, compte le Canada, le Québec et la France parmi les dix premiers pays du monde.

L’anglais est la langue dominante dans le monde des nouvelles technologies et les données massives (big data) sont produites par les géants du numérique (BigTechs) américains et chinois : les GAFAM (Google, Amazon, Facebook, Apple et Microsoft) et les BATX (Baidu, Alibaba et Tencent et Xiaomi).

Bien que le français reste la quatrième langue de l’internet, derrière l’anglais, le chinois et l’espagnol, il est maintenant à égalité avec l’hindi, qui connaît une ascension particulière. La fracture numérique des pays francophones africains, encore en situation inégalitaire pour l’accès aux nouvelles technologies, peut expliquer le rattrapage du français par l’hindi.

  1. Les opportunités et les défis liés au développement d’une IA respectueuse de la francophonie

Le concept "intelligence artificielle", de l’anglais "artificial intelligence", a été créé par John McCarthy mais son origine est née d’un article d’Alan Turing, intitulé "Computing Machinery and Intelligence" dans lequel Turing a suggéré sa célèbre expérience le "test de Turing". Avec Marwin Lee Minsky, un autre pionnier de l’IA, John McCarthy a fondé le Groupe d’intelligence artificielle du Massachusetts of Technology (MIT).

Le concept "intelligence artificielle" caractérise l'élaboration de programmes informatiques capables de prendre en charge des tâches habituellement effectuées par des humains, l'objectif étant de parvenir à transmettre à une machine des fonctions propres à l'humain comme la rationalité, le raisonnement, la mémoire et la perception. De son côté, Yann Le Cun, titulaire de la Chaire Informatique et sciences numériques au Collège de France en 2015-2016, définit l'intelligence artificielle comme " un ensemble de techniques permettant à des machines d'accomplir des tâches et de résoudre des problèmes normalement réservés aux humains et à certains animaux". Enfin, pour le Parlement européen, l’intelligence artificielle représente tout outil utilisé par une machine afin de "reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité".

La langue occupe une place centrale dans l’intelligence artificielle. Ainsi, comme l’explique la Délégation générale à la langue française et aux langues de France, "nous devons nous assurer que le français figure en bonne place en termes d’outillage mais aussi de ressources linguistiques disponibles, pour permettre le développement de ces outils innovants, faute de quoi le français ne permettrait plus d’assurer les interactions essentielles à notre quotidien, ni d’accéder à l’information, qu’elle soit culturelle ou plus généraliste". En d’autres termes, il faut agir pour que le français soit un matériau pour l’IA, qu’une langue scientifique française continue d’exister.

ChatGPT en français

La montée en puissance de l’IA a redéfini la façon dont nous interagissons avec la technologie. Parmi les avancées majeures, ChatGPT en français constitue une innovation majeure dans l’univers de l’IA.

ChatGPT en français a été conçue pour comprendre et générer du texte en français. L’adaptation de ChatGPT pour le marché francophone français permet d’offrir aux utilisateurs francophones des réponses précises et naturelles dans leur langue maternelle. Ainsi, dans la relation client, il permet une communication plus efficace et personnalisée. Dans le domaine de l’éducation, il est un outil pédagogique précieux, apte à fournir des explications et des réponses en français. Au total, les multiples applications de ChatGPT et son potentiel d’évolution constituent un outil incontournable pour interagir avec le numérique.

En résumé, bien que le réseau neuronal chatGPT fonctionne en français, il dispose de moins de ressources et de vocabulaire. Il faut s’assurer qu’il soit bien "nourri" en français.

Une plateforme de données baptisée "Villers-Cotterêts" pour développer l’usage du français par l’IA

Porté par la direction interministérielle du numérique (Dinum), le projet d’une plateforme de données (data hub), officialisé en décembre 2023, est destiné à augmenter la présence du français dans les modèles IA , à l’heure où, "en moyenne, moins de 0,2 % des données d’entraînement des modèles d’intelligence artificielle sont françaises", relevait Jean-Noël Barrot, alors Ministre délégué en charge du Numérique. Pour collecter les données, le Ministère de la Culture fera appel à l’Institut national des archives (INA), à la Bibliothèque nationale de France (BNF), au CNRS et à des associations de la société civile.

La faible présence du français établit des biais linguistiques et culturels (voir glossaire). Or, en matière d’IA, les biais sont aujourd’hui le principal point faible de l’IA. Benoît Sagot, responsable de l’équipe-projet ALMAnaCH ( Automatic Language Modelling and Analysis & Computational Humanities) au sein de l’Institut national de recherche en sciences et technologie du numérique (INRIA) déplore ce manque de diversité linguistique qui est encore palpable dans les principaux modèles. Il écrit : "Si vous demandez à ChatGPT de composer un poème en anglais, il produira des vers qui riment bien et respectent les règles rythmiques de la poésie anglophone. En revanche, si vous lui demandez d’écrire un sonnet en français, vous constaterez que le résultat est moins bon. Il ne maîtrisera pas nécessairement l’usage exclusif des alexandrins". Parallèlement aux biais linguistiques, d’aucuns déplorent les biais culturels. "Sur certains sujets, on constate un système de valeurs implicitement imposé. Cela reflète une forme d’impérialisme culturel démocratique californien qui ne correspond pas toujours à ce qu’on considérait comme neutre en France", déclare Benoît Sagot. Face à ce manque de diversité francophone, ce projet vise non seulement à "combattre les biais culturels des IA majoritairement anglo-saxonnes" écrit Jacques-André Fines Schlumberger, docteur en sciences de l’information et de la communication, mais également à "rassembler des données en langue française […] en un lieu unique où elles seront accessibles et exploitables. A terme, l’ambition des auteurs du projet est de "créer une ressource linguistique riche et variée, représentative de la diversité linguistique de la France", explique Benoît Sagot.

Concrètement, la plateforme de données doit s’organiser autour d’un sous projet nommé LANGU:IA, qui se décompose en deux volets : 1) le premier vise à constituer une base de données de jugements humains pour le RLHF[1] (reinforcement learning from human feedback ou en français "apprentissage par renforcement avec des retours d’humains") ; 2) la publication d’ensembles de données francophones pour un réglage fin[2] des grands modèles de langage (LLM) (voir glossaire).

Le projet PIAF ("Pour des intelligences artificielles francophones")

A l’heure actuelle, dans le domaine du traitement du langage naturel, les données d’entraînement disponibles sont issues d’un travail d’annotation réalisé sur des jeux de données en anglais ou traduites automatiquement, mais jamais en français "natif". Or, il apparaît que l’utilisation de données d’entraînement issues de l’annotation de textes rédigés en langue française permet d’améliorer significativement la performance des modèles. Lancé en juin 2019, l’objet du projet PIAF de la mission Etalab – un département de la Dinum – a pour ambition d’encourager le développement de l’IA en français. Il vise à constituer la matière première permettant d’entraîner des algorithmes d’intelligence artificielle à partir de données en français, afin d’améliorer la performance d’agents conversationnels et de moteurs de recherche pour les administrations publiques. Il s’agit d’un projet ouvert et collaboratif qui s’est concentré tout d’abord à créer un jeu de données francophones pour entraîner et évaluer des algorithmes de questions-réponses nativement en français.

  1. Lutte contre les anglicismes qui sévissent dans le vocabulaire de l’intelligence artificielle

Les techniques de l’intelligence artificielle ont entraîné avec elles la création d’une famille de termes en anglais. Face à l’anglicisation galopante qui sévit dans le domaine de la science des données et notamment dans celui de l’IA, il faut être très réactif car, comme le souligne Gérard Pelletier, directeur général de l’entreprise montréalaise DataFranca, "dès que l’on s’habitue à utiliser un mot en anglais, il est très difficile de revenir en arrière".

Ainsi, en 2018, DataFranca a lancé le chantier du premier grand lexique français de l’intelligence artificielle à l’intention des professionnels de l’industrie, de la recherche et de l’enseignement. L’objectif visé est de constituer une plateforme collaborative en ligne pour "vivre la science en français dans les secteurs porteurs de l’industrie, du savoir et de l’innovation".

De son côté, l’Office québécois de la langue française propose, en collaboration avec l’Institut des algorithmes d’apprentissage et des universités, un vocabulaire bilingue de 85 concepts liés à l’intelligence artificielle.

  1. Petit glossaire des bases de l’intelligence artificielle

Comme le souligne Monsieur Robert Vézina, président-directeur général de l’Office québécois de la langue française, "l’intelligence artificielle regorge de termes accrocheurs souvent galvaudés et pouvant porter à confusion, comme réseau de neurones artificiels, apprentissage automatique, vision par ordinateur, …".

Agent conversationnel (chatbot) : Programme informatique capable de simuler une conversation avec un ou plusieurs humains par échange vocal ou textuel"

Algorithme (algorithm) : Suite d’opérations ou d’instructions à appliquer dans un ordre déterminé pour résoudre un problème ou d’obtenir un résultat donné.

Apprentissage automatique (machine learning) : Technique qui permet à une machine d'apprendre à résoudre des problèmes à partir d'exemples.

Apprentissage par renforcement (reinforcement learning) : Type d’apprentissage informatique dans lequel un agent apprend à effectuer des actions dans un environnement pour atteindre un certain objectif.

Note : L’agent apprend grâce à des interactions répétées et à retour d’informations sous forme de récompense ou de punition.

Apprentissage profond (deep-learning) : Technique qui permet à une machine de reconnaître le contenu d'une image ou de comprendre le langage parlé.

Note : L'apprentissage profond est basé sur des réseaux de neurones artificiels.

Biais (bias) : Une des deux erreurs utilisée pour définir la qualité d’un algorithme d’apprentissage, l’autre étant la variance.

ChatGPT : Modèle de langage développé par la société américaine OpenAI, dont la principale fonction est de générer du texte pour répondre aux requêtes des internautes.

Note : Le terme GPT signifie "Generative Pre-trained Transformer", c’est-à-dire un modèle de langage basé sur l’apprentissage profond qui peut générer des textes de type humain à partir d’une entrée textuelle donnée.

Grand modèle de langage (LLM) : Type de programme d’intelligence artificielle capable de comprendre et de générer des textes en langage humain.

Réseaux de neurones artificiels (artificial neural networks) : Famille d'algorithmes informatiques inspirés des mécanismes de fonctionnement du cerveau humain et utilisés pour résoudre des problèmes de contrôle, de reconnaissance de formes ou de mots, de mémorisation, etc.

Vision par ordinateur (computer vision) : Technique d’intelligence artificielle permettant aux ordinateurs d’identifier et analyser des images ou des vidéos comme un cerveau humain.

Nadia Antonin est économiste, ancien haut cadre à la Banque de France, membre de commissions ministérielles de terminologie, de l’Académie des Sciences commerciales, et du Haut Conseil international de la Langue française et de la Francophonie. Elle milite également pour la cause de l’Arménie et des Chrétiens d’Orient.


[1] Le RLHF vise à affiner les grands modèles de langage (LLM) afin de saisir les nuances subtiles de la communication humaine.

[2] Le réglage fin est le processus de réentrainement d’un modèle de base sur de nouvelles données.

Ce contenu a été publié dans Nouvelles, Nouvelles2024-2025. Vous pouvez le mettre en favoris avec ce permalien.