De "Eureka" à "Tout est dans le poids"

6 janvier 2024 par
Tahar Hassine

Ces deux slogans sont séparés historiquement par près de 2 400 ans, mais ils annoncent, l’un dans le domaine de la mécanique des fluides et l’autre dans celui du traitement automatique du langage naturel (NLP), une véritable révolution. Le principe d’Archimède a permis la construction des navires gigantesques (voire des villes flottantes) que nous voyons aujourd’hui, tandis que la théorie du poids, depuis 2017, a ouvert la voie à la construction de modèles d’intelligence artificielle que certains prétendent supérieurs à l’intelligence humaine. Si le principe d’Archimède est une connaissance élémentaire pour tout lycéen, la théorie du poids reste une énigme pour beaucoup de non-experts. De quoi s’agit-il exactement ?

Tout d’abord, le slogan « Attention is all you need » est le titre d’un article publié en 2017 par une équipe de chercheurs de Google Brain, dirigée par Ashish Vaswani et Noam Shazeer. Cet article introduit le concept de « Transformers », une architecture fondée sur des mécanismes de poids plutôt que sur celle des réseaux de neurones récurrents (RNN). Pour simplifier, dans une architecture RNN, les sorties dépendent de plusieurs entrées précédentes. Mais, naturellement, une architecture où la sortie dépend de plusieurs entrées précédentes reste une architecture séquentielle. C’est là que le concept des « Transformers » marque une rupture, car une architecture fondée sur les Transformers est parallèle et non séquentielle.

Plus concrètement, un modèle basé sur les Transformers peut traiter simultanément toutes les parties d’une entrée sans se soucier de leur ordre dans la séquence. Par exemple, face à la question « quels étaient les enjeux des guerres puniques ? », un système basé sur un réseau de neurones récurrent traiterait la séquence mot par mot, en maintenant un état interne à travers les mots « enjeux », « guerres » puis « puniques ». À l’inverse, un modèle fondé sur les Transformers traiterait tous les mots en même temps, en accordant une attention (ou un poids) variable à chaque mot de la séquence en fonction de son importance relative et de ses relations avec les autres mots.

Depuis l’introduction des Transformers, de nombreux modèles dérivés ont été développés pour différentes tâches. BERT (Bidirectional Encoder Representations from Transformers) est optimisé pour la compréhension du langage, tandis que GPT (Generative Pre-trained Transformer) est conçu pour la génération de texte.

Les modèles fondés sur les Transformers sont utilisés dans une multitude d’applications du traitement du langage naturel, notamment la traduction automatique, la réponse à des questions, la classification de texte, la génération de texte, et bien d’autres encore.

./.