Fondée en 2021, l’entreprise américaine d’intelligence artificielle Anthropic s’est spécialisée dans le développement de grands modèles de langage et en sécurité de l’IA, si bien qu’elle a fait naître Claude Mythos, un projet qui a vraisemblablement dépassé les attentes placées en lui… En effet, son modèle d’IA a réussi à sortir de l’espace sécurisé d’expérimentation - un sandbox - dans lequel ses créateurs l’avaient confiné ! C’est ce qu’a indiqué Anthropic le 7 avril, quelques jours après qu’une fuite interne ait révélé l’existence du projet Mythos.

Ce mardi, Anthropic a alors officialisé le lancement de Project Glasswing, une initiative de cybersécurité adossée à son puissant nouveau modèle Claude Mythos Preview. Et il faudra bien cela pour rassurer les spécialistes sur cet impressionnant modèle. En plus de s’être évadé de sa sandbox, la version de Mythos a pris une initiative que personne ne lui avait soufflée : elle a publié le détail technique de son évasion sur plusieurs sites web accessibles au public !

Mythos : le modèle qui déchaîne la planète IA

Anthropic a également déclaré qu'elle mettrait «Claude Mythos Preview» à la disposition d'un consortium de plus de 40 entreprises technologiques, dont Apple, Amazon et Microsoft, qui l'utiliseront, peut-on lire dans Challenges, afin de détecter et corriger les failles de sécurité dans des logiciels critiques.

À l'inverse, Anthropic a annoncé qu'elle n'avait pas l'intention de diffuser plus largement sa nouvelle technologie. «L'objectif est à la fois de sensibiliser le public et de donner aux bons acteurs une longueur d'avance dans le processus de sécurisation des infrastructures et des codes open source et privés», a déclaré Jared Kaplan, directeur scientifique d'Anthropic.