Intelligence artificielle : les grands modèles de langage bientôt confrontés à un problème majeur ?

Intelligence artificielle : les grands modèles de langage bientôt confrontés à un problème majeur ? © STEPHANIE ARNETT/MITTR

Par MIT Technology Review

Publié le 25 novembre 2022 à 09h39.

Lecture : 2 min

Réservé aux abonnés

Les grandes modèles de langage sont l'un des dossiers les plus brûlants du moment sur la table des chercheurs en intelligence artificielle (IA). Des entreprises accélèrent leurs démarches pour mettre en route des programmes comme GPT-3, capables d'écrire des articles et même du code informatique de manière cohérente. Toutefois, selon une équipe de prévisionnistes de l'IA, un problème se profile à l'horizon : nous pourrions manquer de données pour les entraîner.

Les modèles de langage sont formés à partir de textes provenant de sources telles que Wikipédia, des articles publiés sur des sites d'information, des documents scientifiques ainsi que des livres. Ces dernières années, la tendance a été d'entraîner ces modèles sur de plus en plus de données dans l'espoir de les rendre plus précis et plus polyvalents.

Le problème c'est qu'on pourrait manquer des types de données généralement utilisés pour développer des modèles de langage dans un avenir proche - dès 2026 -, selon un article rédigé par des chercheurs d'Epoch, un organisme de recherche et de prévision en matière d'intelligence artificielle. Cet article n'a pas encore été révisé par des pairs. Le souci vient du fait qu'au fur et à mesure que les chercheurs construisent des modèles plus puissants et dotés de capacités plus grandes, ils doivent trouver toujours plus de textes pour les entraîner. "Les chercheurs spécialisés dans les grands modèles de langage craignent de plus en plus d'être à court de ces types de données", indique Teven Le Scao, chercheur travaillant pour la société d'IA Hugging Face. Il n'a pas participé aux travaux d'Epoch.

Cela s'explique aussi en partie par le fait que les chercheurs en IA linguistique filtrent les données qu'ils utilisent pour entraîner les modèles en les divisant en deux catégories : celles de haute qualité et celles de basse qualité. "La frontière entre ces deux catégories peut être floue", souligne Pablo Villalobos, chercheur chez Epoch et auteur principal de l'article. Les textes de la première catégorie sont considérés comme ceux qui sont mieux écrits et sont souvent produits par des écrivains professionnels.

Les chercheurs doivent trouver des nouveaux moyens pour faire face à la pénurie de données

La catégorie des données de qualité basse est, elle, constituée de textes tels que des messages issus de réseaux sociaux ou de commentaires sur des sites comme 4chan. Ils dépassent très largement en nombre les données considérées de haute qualité. Les chercheurs n'entraînent généralement les modèles qu'à l'aide de données appartenant à la catégorie de haute qualité car c'est le type de langage que les chercheurs veulent voir être reproduit par les modèles. Cette approche a permis d'obtenir des résultats impressionnants pour de grands modèles de langage tels que GPT-3.

D'après Swabha Swayamdipta, professeure de machine learning (apprentissage automatique, en français) à l'université de Californie du Sud, spécialisée dans la qualité des ensembles de données, une façon de surmonter ces contraintes serait de réévaluer ce qui est définition comme une qualité "basse" et "haute". Selon elle, si la pénurie de données pousse les chercheurs en IA à intégrer des ensembles de données plus diversifiés dans le processus de formation, cela constituerait un "avantage net" pour les modèles de langage.

Les chercheurs pourraient également trouver des moyens de prolonger la durée de vie des données utilisées pour la formation des modèles de langage. Actuellement, les modèles de langage de grande taille ne sont formés qu'une seule fois sur les mêmes données en raison des contraintes liées aux performances et au coût. Cependant, il pourrait être possible de former un modèle plusieurs fois en utilisant les mêmes données, avance Swabha Swayamdipta.

Certains chercheurs pensent que la taille n'est pas forcément synonyme de qualité lorsqu'il s'agit de modèles de langage. Percy Liang, professeur d'informatique à l'université de Stanford, affirme qu'il est prouvé que le fait de rendre les modèles plus efficaces peut améliorer leur capacité plutôt que de simplement augmenter leur taille. "Nous avons constaté que des modèles plus petits formés sur des données de meilleure qualité peuvent être plus performants que des modèles plus grands formés sur des données de moindre qualité", fait-il valoir.

Article de Tammy Xu, traduit de l'anglais par Kozi Pastakia.