Qu’est-ce que maîtriser le langage ? Si l’on devait faire une analogie avec la linguistique, les langues sont apprises et enseignées à partir de 4 compétences langagières de base : • Compréhension écrite (modèles de compréhension) • Compréhension orale (modèles de compréhension) • Expression écrite (modèles d’expression) • Expression orale (modèles d’expression) Comment l’ordinateur et l’humain comprennent-ils le langage ? En comparaison avec les machines, l’acquisition du langage chez les êtres humains se déroule différemment. En effet, les humains peuvent comprendre celui-ci avant même de savoir lire. Cela signifie que, dès leur plus jeune âge, ils sont capables de communiquer sans nécessairement connaître les règles grammaticales. Au fil du temps, ceux-ci apprennent à transformer leur langage oral en langage écrit, leur permettant ainsi de lire et d’écrire. Une fois qu’ils ont maîtrisé la lecture, ils peuvent apprendre à reconnaître des mots qu’ils connaissaient déjà uniquement à l’oral. Les machines, quant à elles, ne sont pas capables d’interpréter le langage de cette façon. Les chercheurs doivent donc développer des systèmes qui leur permettent de traiter le texte sans avoir la capacité, comme les humains, de relier les sons à la signification des mots. Ainsi, ces systèmes doivent être bâtis sur des méthodes qui n’ont pas de connaissance préalable du langage. Cela crée le dilemme classique de “la poule et l’œuf” : comment les machines peuvent-elles commencer à traiter du texte si elles ne connaissent rien à la grammaire, aux sons, aux mots ou aux phrases. La solution est d’utiliser ce que l’on appelle des modèles de langage. Ces modèles sont en quelque sorte des cerveaux numériques qui comprennent le langage humain et permettent aux machines de réaliser certaines tâches telles que la: • Traduction automatique • Reconnaissance de la parole • Récupération de l’information • Génération d’articles de presse Compréhension de l’ordinateur L’architecture utilisée pour que l’ordinateur apprenne et maîtrise notre langage est composée d’un encodeur et d’un décodeur. Pour mieux comprendre ce processus, il est possible de réaliser une expérience de pensée : 1. Tout d’abord, choisir un objet dans l’environnement proche et le fixer du regard pendant une dizaine de secondes 2. Ensuite, imaginer cet objet dans sa tête. 3. Finalement, prendre un crayon et essayer de dessiner cet objet. Concrètement nous venons de (1) encoder l’objet dans ta tête, (2) se l’imaginer en représentation compressée que l’on appelle aussi représentation latente, (3) décoder l’objet sur papier. Ce processus permet de comprendre comment un ordinateur apprend et utilise un modèle de langage. Lors de cette expérience de pensée, l’objet est d’abord encodé dans la tête de la personne (1), puis il est imaginé dans une représentation compressée, également appelée représentation latente (2). Enfin, l’objet est décodé sur le papier (3). C’est exactement comme ça qu’un ordinateur apprend et utilise un modèle de langage. La représentation latente représente une version compressée de l’image de l’objet. C’est à ce niveau que l’on peut puiser dans sa base de connaissances pour établir des liens avec l’information qui a été encodée. En pratique, au lieu de montrer un objet, il est possible de donner une description plus ou moins précise de ses caractéristiques. La personne essaiera alors de s’imaginer l’objet avant de le dessiner. On peut répéter cette logique avec toutes sortes de systèmes de signes. Modèles de langage La même logique peut être appliquée pour le traitement du langage naturel. Dans le cas de la traduction, l’architecture encodeur-décodeur peut être comparée à deux traducteurs humains qui parlent seulement deux langues : leur langue maternelle et une langue imaginaire qu’ils ont en commun. Par exemple, s’ils parlent l’allemand et le français, l’encodeur convertira la phrase allemande en la langue imaginaire qu’ils partagent, et le décodeur pourra alors traduire la phrase en français. Cette approche permet de traduire des phrases d’une langue à une autre en utilisant une langue intermédiaire commune. Cette méthode est utilisée dans les systèmes de traduction automatique qui sont basés sur des modèles de langage et des algorithmes d’apprentissage automatique. Il est également possible d’utiliser cette architecture encodeur-décodeur pour d’autres tâches, comme la génération de textes. Par exemple, l’encodeur pourrait fournir un contexte et le décodeur serait responsable de produire un article de presse. Transformers L’architecture Transformer a été développée par Google en 2017. Elle permet d’entraîner notre fameux modèle de langage. Cette architecture utilise un encodeur et un décodeur, comme introduit précédemment. Toutefois, elle intègre un nouveau mécanisme appelé l’attention pour permettre à l’ordinateur de mieux comprendre le contexte d’une phrase. En effet, les méthodes précédentes avaient des limites de mémoire qui ne permettaient pas de comprendre le contexte complet d’une phrase. Les Transformers ont connu un succès fulgurant en raison de leur efficacité à traiter le texte et ont établi de nouveaux standards en termes de performance. Cette architecture a permis des avancées significatives dans le domaine de la compréhension du langage naturel, notamment autour de la traduction automatique et de la génération de texte. Les modèles de compréhension et d’expression sont deux applications clés de ces modèles, Les modèles de compréhension Les modèles de compréhension utilisent la portion encodeur d’un modèle de langage. C’est comme si l’on donnait à un humain un texte et qu’on lui demandait de faire des tâches directement sur ce texte. Le modèle le plus connu est BERT. Les modèles d’expression Les modèles d’expression (ou modèles génératifs) utilisent la portion encodeur puis décodeur d’un modèle de langage. C’est comme si l’on donnait à un humain un contexte et qu’on lui demandait de créer du contenu à partir de celui-ci. Le modèle le plus connu est GPT-3 aussi utilisé par ChatGPT. Comment ces modèles sont-ils entraînés ? Les modèles de compréhension Afin de comprendre un texte, il est important de comprendre les mots qui le composent ainsi que leur contexte. C’est l’idée qui est utilisée ici pour les modèles de compréhension. Le modèle reçoit une séquence de mots et doit prédire le mot manquant dans la séquence en se basant sur le contexte fourni par les mots environnants. Exemple : Le

