Si l’on devait faire une analogie avec la linguistique, les langues sont apprises et enseignées à partir de 4 compétences langagières de base :
En comparaison avec les machines, l’acquisition du langage chez les êtres humains se déroule différemment. En effet, les humains peuvent comprendre celui-ci avant même de savoir lire. Cela signifie que, dès leur plus jeune âge, ils sont capables de communiquer sans nécessairement connaître les règles grammaticales. Au fil du temps, ceux-ci apprennent à transformer leur langage oral en langage écrit, leur permettant ainsi de lire et d’écrire. Une fois qu’ils ont maîtrisé la lecture, ils peuvent apprendre à reconnaître des mots qu’ils connaissaient déjà uniquement à l’oral.
Les machines, quant à elles, ne sont pas capables d’interpréter le langage de cette façon. Les chercheurs doivent donc développer des systèmes qui leur permettent de traiter le texte sans avoir la capacité, comme les humains, de relier les sons à la signification des mots. Ainsi, ces systèmes doivent être bâtis sur des méthodes qui n’ont pas de connaissance préalable du langage. Cela crée le dilemme classique de “la poule et l’œuf” : comment les machines peuvent-elles commencer à traiter du texte si elles ne connaissent rien à la grammaire, aux sons, aux mots ou aux phrases.
La solution est d’utiliser ce que l’on appelle des modèles de langage. Ces modèles sont en quelque sorte des cerveaux numériques qui comprennent le langage humain et permettent aux machines de réaliser certaines tâches telles que la:
L’architecture utilisée pour que l’ordinateur apprenne et maîtrise notre langage est composée d’un encodeur et d’un décodeur. Pour mieux comprendre ce processus, il est possible de réaliser une expérience de pensée :
Concrètement nous venons de (1) encoder l’objet dans ta tête, (2) se l’imaginer en représentation compressée que l’on appelle aussi représentation latente, (3) décoder l’objet sur papier.
Ce processus permet de comprendre comment un ordinateur apprend et utilise un modèle de langage. Lors de cette expérience de pensée, l’objet est d’abord encodé dans la tête de la personne (1), puis il est imaginé dans une représentation compressée, également appelée représentation latente (2). Enfin, l’objet est décodé sur le papier (3). C’est exactement comme ça qu’un ordinateur apprend et utilise un modèle de langage.
La représentation latente représente une version compressée de l’image de l’objet. C’est à ce niveau que l’on peut puiser dans sa base de connaissances pour établir des liens avec l’information qui a été encodée.
En pratique, au lieu de montrer un objet, il est possible de donner une description plus ou moins précise de ses caractéristiques. La personne essaiera alors de s’imaginer l’objet avant de le dessiner. On peut répéter cette logique avec toutes sortes de systèmes de signes.
La même logique peut être appliquée pour le traitement du langage naturel. Dans le cas de la traduction, l’architecture encodeur-décodeur peut être comparée à deux traducteurs humains qui parlent seulement deux langues : leur langue maternelle et une langue imaginaire qu’ils ont en commun. Par exemple, s’ils parlent l’allemand et le français, l’encodeur convertira la phrase allemande en la langue imaginaire qu’ils partagent, et le décodeur pourra alors traduire la phrase en français. Cette approche permet de traduire des phrases d’une langue à une autre en utilisant une langue intermédiaire commune. Cette méthode est utilisée dans les systèmes de traduction automatique qui sont basés sur des modèles de langage et des algorithmes d’apprentissage automatique.
Il est également possible d’utiliser cette architecture encodeur-décodeur pour d’autres tâches, comme la génération de textes. Par exemple, l’encodeur pourrait fournir un contexte et le décodeur serait responsable de produire un article de presse.
L’architecture Transformer a été développée par Google en 2017. Elle permet d’entraîner notre fameux modèle de langage. Cette architecture utilise un encodeur et un décodeur, comme introduit précédemment. Toutefois, elle intègre un nouveau mécanisme appelé l’attention pour permettre à l’ordinateur de mieux comprendre le contexte d’une phrase. En effet, les méthodes précédentes avaient des limites de mémoire qui ne permettaient pas de comprendre le contexte complet d’une phrase.
Les Transformers ont connu un succès fulgurant en raison de leur efficacité à traiter le texte et ont établi de nouveaux standards en termes de performance. Cette architecture a permis des avancées significatives dans le domaine de la compréhension du langage naturel, notamment autour de la traduction automatique et de la génération de texte. Les modèles de compréhension et d’expression sont deux applications clés de ces modèles,
Les modèles de compréhension
Les modèles de compréhension utilisent la portion encodeur d’un modèle de langage. C’est comme si l’on donnait à un humain un texte et qu’on lui demandait de faire des tâches directement sur ce texte. Le modèle le plus connu est BERT.
Les modèles d’expression
Les modèles d’expression (ou modèles génératifs) utilisent la portion encodeur puis décodeur d’un modèle de langage. C’est comme si l’on donnait à un humain un contexte et qu’on lui demandait de créer du contenu à partir de celui-ci. Le modèle le plus connu est GPT-3 aussi utilisé par ChatGPT.
Les modèles de compréhension
Afin de comprendre un texte, il est important de comprendre les mots qui le composent ainsi que leur contexte. C’est l’idée qui est utilisée ici pour les modèles de compréhension. Le modèle reçoit une séquence de mots et doit prédire le mot manquant dans la séquence en se basant sur le contexte fourni par les mots environnants.
Exemple :
Le _ dort sur le lit => “chat”
Dans ce processus, le modèle a ainsi été entraîné à prédire le mot manquant en se basant sur les motifs qu’il observe dans les données.
Les modèles d’expression
Afin de générer un texte, il est important de comprendre le contexte et les consignes d’écriture. C’est l’idée qui est utilisée ici pour les modèles d’expression. L’objectif de l’entraînement est de prédire le prochain mot dans une séquence de mots en se basant sur le contexte fourni par les mots précédents.
Exemple :
Le chat dort sur le => “lit”
Le choix entre les modèles de compréhension et les modèles d’expression dépendra de la tâche à accomplir, il n’y a pas de modèle supérieur à l’autre. Les modèles d’expression, tels que GPT-3, sont souvent utilisés pour aider à la création de contenu, comme c’est le cas avec ChatGPT. En revanche, pour des tâches plus précises comme la réservation de billets d’avion en ligne, un modèle de compréhension serait plus adapté. ChatGPT pourrait fournir un guide pour les étapes à suivre, mais ne pourrait pas effectuer la réservation elle-même.
En fin de compte, le choix du modèle dépendra des besoins spécifiques de chaque tâche. Les modèles d’expression peuvent être utiles pour la créativité, tandis que les modèles de compréhension peuvent être plus adaptés à des tâches spécifiques nécessitant une compréhension précise du texte.
Les modèles de langage, tels que BERT ou GPT-3, sont entraînés sur des quantités massives de données provenant d’Internet. Cela leur confère une bonne performance sur des tâches d’ordre général, mais pas forcément sur une tâche spécifique.
En effet, ces modèles sont comparables à un médecin généraliste dans le domaine médical. Ils peuvent répondre à de nombreuses questions en surface, mais ne peuvent pas rentrer dans les détails de chaque sujet. De même, ChatGPT peut donner de bons conseils généraux, mais ne pourra pas nécessairement répondre en profondeur à des questions plus spécifiques.
Lorsque l’on utilise un modèle de langage de base comme BERT ou GPT-3, les performances sur des tâches spécifiques peuvent ne pas être optimales malgré une bonne performance globale. Cependant, il est possible d’améliorer les performances sur une tâche en particulier grâce à la technique d’affinage des modèles. Cette technique consiste à prendre le modèle de base et à l’adapter à une tâche ou à un domaine de connaissance spécifique.
Pour reprendre l’analogie du médecin, c’est comme si on prenait un médecin généraliste et qu’on lui demandait de devenir dermatologue. Concrètement, comment cela se passe-t-il en intelligence artificielle ? Il va falloir affiner nos modèles avec des données spécifiques à la tâche ou au domaine que l’on souhaite couvrir. Par exemple, en fournissant uniquement à notre modèle généraliste des articles de dermatologie, celui-ci deviendra meilleur à générer des diagnostics pour les patients.
Ainsi un industriel qui possède des données privées sur un domaine en particulier peut obtenir un avantage stratégique sérieux simplement en affinant un modèle avec ses données. Il pourra ainsi innover plus rapidement dans son secteur et prendre un avantage concurrentiel à ne pas négliger, notamment dans un contexte de pénurie d’emploi.
Le nouveau paradigme en intelligence artificielle repose sur la notion d’affinage des modèles. Les modèles fondamentaux sont comme de gros cerveaux entraînés avec une grande quantité de données sur différents sujets. Ce modèle peut finalement être adapté à de nombreuses tâches particulières.
12
Mar12
Mar