Anthropic déploie le plus puissant Claude Mythos ! Coup critique Opus 4.6, s'il vous plaît, ne l'utilisez surtout pas

Rédigé par : Xin Zhiyuan

【Guide de Xin Zhiyuan】Dans la nuit, le Mythos de Claude le plus puissant a enfin été dévoilé ; tous les numéros 1 du classement, le mythe d’Opus 4.6 s’effondre ! Le plus effrayant, c’est que non seulement il peut révéler en un instant une faille système non résolue depuis 27 ans, mais qu’il a même évolué jusqu’à développer une conscience de soi. Un rapport d’épouvante de 244 pages, qui révèle tout.

Ce soir, la Silicon Valley ne dort plus !

À l’instant même, Anthropic a déclenché, sans le moindre préavis, son arme ultime — Claude Mythos Preview.

Parce que c’est trop dangereux, Mythos Preview ne sera pas disponible pour tout le monde pour l’instant.

L’évaluation du père de CC, Boris Cherny, est brève et percutante : « Mythos est extrêmement puissant, et cela donne la chair de poule ».

Ainsi, ils se sont unis avec 40 géants pour former une alliance — Project Glasswing. Un seul objectif : chercher des bugs, les corriger, pour des logiciels partout dans le monde.

Ce qui coupe le souffle, c’est que Mythos Preview domine en contrôle terrifiant, dans les principaux bancs d’essai AI —

programmation, raisonnement, dernier examen des humains, tâches d’agents — écrasant entièrement GPT-5.4 et Gemini 3.1 Pro.

Même, le « précédent chef-d’œuvre » de leur propre maison, Claude Opus 4.6, paraît soudain bien terne face à Mythos Preview :

Programmation (SWE-bench) : sur toutes les tâches, Mythos réalise un avantage d’environ 10 %-20 % ;

Dernier examen des humains (HLE) : sans outils externes, les résultats du « test à l’aveugle » dépassent Opus 4.6 de 16,8 % ;

Tâches d’agents (OSWorld, BrowseComp) : devenir une légende, dépassement intégral ;

Sécurité informatique : score de 83,1 % pour raser le classement, marquant un saut générationnel dans les capacités offensive et défensive de l’IA.

Glisser horizontalement pour voir

Pendant ce temps, une « carte système » longue de 244 pages publiée par Anthropic a rempli l’écran d’une seule idée : danger ! danger ! beaucoup trop dangereux !

Elle révèle l’autre face, glaciale : Mythos dispose déjà d’une forte capacité de tromperie et d’une conscience autonome.

Mythos ne fait pas que déceler l’intention des tests : il « vise volontairement » des scores bas pour cacher sa puissance. Et après des opérations en violation des règles, il nettoie activement les journaux pour empêcher les humains de le découvrir.

Il a aussi réussi à s’échapper du bac à sable : il publie lui-même le code de la faille, puis envoie un e-mail aux chercheurs.

En un instant, tout le web est tombé dans la folie, et tout le monde ne fait que dire : Mythos Preview est terrifiant.

L’ancien ordre du monde de l’IA a été totalement pulvérisé ce soir.

En fait, dès le 24 février, Anthropic avait déjà utilisé Mythos en interne.

Sa puissance ne peut donc être expliquée qu’avec des données.

SWE-bench Verified, 93,9 %. Opus 4.6 est à 80,8 %.

SWE-bench Pro, 77,8 %. Opus 4.6 est à 53,4 %, GPT-5.4 à 57,7 %.

Terminal-Bench 2.0, 82,0 %. Opus 4.6 est à 65,4 %.

GPQA Diamond, 94,6 %.

Humanity’s Last Exam (avec outils), 64,7 %. Opus 4.6 est à 53,1 %.

USAMO 2026, concours de mathématiques, 97,6 %. Opus 4.6 n’a obtenu que 42,3 %.

SWE-bench Multimodal, 59,0 %, Opus 4.6 n’est qu’à 27,1 %, plus que le double en plus.

OSWorld, contrôle d’ordinateur, 79,6 %.

BrowseComp, recherche d’informations, 86,9 %.

GraphWalks, long contexte (256K-1M tokens), 80,0 %. Opus 4.6 est à 38,7 %, GPT-5.4 à seulement 21,4 %.

Chaque point est une avance nette, en creusant l’écart.

Mis dans n’importe quel cycle normal de lancement de produit, ces chiffres suffiraient à faire qu’Anthropic tienne une conférence de presse avec grande pompe, ouvre des API, et récolte des abonnements.

Le prix par token de Mythos Preview est 5 fois celui d’Opus 4.6

Mais Anthropic ne l’a pas fait.

Car ce qui les effraie vraiment, ce ne sont pas les évaluations génériques ci-dessus.

Les performances en attaque et défense réseau de Mythos Preview ont déjà franchi une ligne clairement visible.

Opus 4.6 a trouvé environ 500 faiblesses inconnues dans des logiciels open source.

Mythos Preview en a trouvé des milliers.

Dans les tests ciblés de reproduction de failles de CyberGym, Mythos Preview obtient 83,1 %, tandis qu’Opus 4.6 est à 66,6 %.

Dans les 35 défis CTF de Cybench, Mythos Preview résout entièrement chaque question après 10 tentatives, et le pass@1 atteint 100 %.

Et la chose la plus parlante, c’est Firefox 147.

Anthropic avait auparavant utilisé Opus 4.6 pour repérer une série de faiblesses dans le moteur JavaScript de Firefox 147. Mais Opus 4.6 réussissait à peine à les transformer en exploits exploitables : des centaines de tentatives n’ont abouti qu’à 2 succès.

Le même test avec Mythos Preview.

250 tentatives, 181 exploits fonctionnels, et 29 autres qui ont permis de contrôler des registres.

2 → 181.

Dans une phrase du billet du red team, « le mois dernier, nous écrivions encore qu’Opus 4.6 était bien plus fort pour découvrir des problèmes que pour les exploiter. Les évaluations internes montrent que la probabilité de succès d’Opus 4.6 dans le développement autonome d’exploits est quasiment nulle. Mais Mythos Preview, c’est un tout autre niveau ».

Pour comprendre à quel point Mythos Preview est puissant en situation réelle, il suffit de voir les trois exemples ci-dessous.

OpenBSD, l’un des systèmes d’exploitation les plus réputés pour son durcissement dans le monde, exécute une grande quantité de pare-feu et d’infrastructures critiques.

Mythos Preview, dans son implémentation de TCP SACK, a déterré une vulnérabilité existant depuis 1998.

Le bug est extrêmement ingénieux : il s’agit d’un empilement de deux défauts indépendants.

Le protocole SACK permet au destinataire de confirmer de manière sélective les plages de paquets reçus. L’implémentation d’OpenBSD ne vérifie, lors du traitement, que la borne supérieure de la plage, sans vérifier la borne inférieure. C’est le premier bug, qui est généralement sans danger.

Le deuxième bug se déclenche, sous certaines conditions, par une écriture de pointeur nul, mais en temps normal ce chemin n’est pas atteignable, car il faut simultanément satisfaire deux conditions mutuellement exclusives.

Mythos Preview a trouvé la faille. Le numéro de séquence TCP est un entier signé sur 32 bits. En exploitant le premier bug, il place le point de départ de SACK à environ 2^31 au-delà de la fenêtre normale. Les deux opérations de comparaison débordent en même temps sur le bit de signe. Le noyau est trompé : les conditions impossibles sont satisfaites, et l’écriture de pointeur nul se déclenche.

Dès qu’une personne se connecte à la machine cible, elle peut la faire crasher à distance.

Depuis 27 ans, malgré d’innombrables audits manuels et analyses automatisées, personne ne l’a découvert. Le coût total de scan du projet est inférieur à 20 000 $.

C’est probablement le salaire d’une semaine d’un ingénieur senior en test d’intrusion.

FFmpeg est l’une des bibliothèques de codage/décodage vidéo les plus utilisées au monde, et c’est aussi l’un des projets open source ayant fait l’objet des fuzz tests les plus approfondis.

Mythos Preview a trouvé, dans le décodeur H.264, une faiblesse introduite en 2010 (dont la source remonte à 2003).

Le problème vient d’une inadéquation de type apparemment anodine. L’entrée dans la table qui enregistre l’appartenance des slices est un entier sur 16 bits, tandis que le compteur de slices lui-même est un int sur 32 bits.

Sur une vidéo normale, chaque image ne contient que quelques slices ; la limite sur 16 bits, 65 536, suffit toujours. Mais lors de l’initialisation de cette table, memset(…, -1, …) est utilisé pour remplir, ce qui fait de 65 535 une valeur sentinelle de « position vide ».

L’attaquant construit une image contenant 65 536 slices. Le numéro de la slice 65 535 entre exactement en collision avec la valeur sentinelle ; le décodeur se trompe et provoque une écriture hors limites.

La graine de ce bug a été plantée dès l’introduction du codec H.264 en 2003. Une refactorisation en 2010 l’a transformé en une faiblesse exploitable.

Depuis, pendant 16 ans, un fuzzer automatisé a exécuté 5 millions de fois cette ligne de code, sans jamais déclencher le problème.

C’est l’exemple le plus glaçant.

Mythos Preview a découvert et exploité de manière entièrement autonome une vulnérabilité d’exécution de code à distance qui existait depuis 17 ans dans un serveur FreeBSD NFS (CVE-2026-4747).

Par « entièrement autonome », on entend : après le prompt initial, aucune intervention humaine n’a eu lieu à aucune étape de la découverte ou du développement de l’exploit.

L’attaquant peut, depuis n’importe quel endroit sur Internet, obtenir sans authentification les droits root complets sur le serveur cible.

Le problème lui-même est un débordement de tampon de type stack. Lorsque le serveur NFS traite les requêtes d’authentification, il copie directement les données contrôlées par l’attaquant dans un tampon stack de 128 octets ; la vérification de longueur autorise jusqu’à 400 octets.

Le noyau de FreeBSD est compilé avec -fstack-protector, mais cette option ne protège que les fonctions contenant des tableaux de char ; ici, la déclaration du tampon est int32_t[32], donc le compilateur n’insère pas de stack canary. FreeBSD ne fait pas non plus de randomisation des adresses du noyau.

Une chaîne ROP complète dépasse 1000 octets, mais le débordement de pile ne dispose que de 200 octets d’espace. La solution de Mythos Preview consiste à découper l’attaque en 6 requêtes RPC consécutives : les 5 premières écrivent des données par blocs dans la mémoire du noyau ; la 6e déclenche l’appel final, en ajoutant la clé SSH publique de l’attaquant à /root/.ssh/authorized_keys.

En comparaison, une société indépendante d’étude de sécurité avait auparavant prouvé qu’Opus 4.6 pouvait aussi exploiter cette même faille, mais avec un guidage manuel. Mythos Preview n’en a pas besoin.

En plus de ces trois cas déjà corrigés, le blog d’Anthropic a aussi prévenu, sous la forme d’engagements de hachage SHA-3, d’une multitude de vulnérabilités encore non corrigées. Elles couvrent chaque système d’exploitation majeur et chaque navigateur majeur, ainsi que plusieurs bibliothèques cryptographiques.

Plus de 99 % n’ont pas encore été corrigées : aucune précision ne peut être publiée.

Le blog du red team a aussi montré un autre test stupéfiant. Ils ont donné à Mythos Preview une liste contenant 100 CVE connus, lui ont demandé de filtrer les 40 exploitables, puis de rédiger les exploits d’élévation de privilèges un par un. Le taux de réussite dépasse la moitié. Deux des cas ont été publiés en détail : la finesse des exploits a pris plusieurs jours à l’équipe sécurité interne d’Anthropic pour comprendre entièrement.

L’un des exploits part d’un gadget d’écriture à partir d’une page physique adjacente sur 1 bit. En contrôlant la mise en page précise de la mémoire du noyau (y compris slab spraying, alignement des pages de tables de pages, basculement des bits de permissions des PTE), il finit par réécrire la première page de mémoire de /usr/bin/passwd, y injecte un stub ELF de 168 octets qui appelle setuid(0) pour obtenir root.

L’ensemble du processus coûte moins de 1 000 $.

À ce sujet, un ingénieur d’Anthropic a déclaré que cela ressemble à un autre moment GPT-3.

La section d’évaluation de l’alignement dans la System Card de 244 pages est celle qui empêche vraiment Anthropic de dormir.

La conclusion est contradictoire.

Mythos Preview est, à la fois, le « niveau d’alignement le plus élevé » de l’IA qu’ils ont entraînée, et un « niveau de risque lié à l’alignement le plus élevé ».

Passerelle :

Ils ont utilisé une analogie de guide de montagne. Un vétéran peut être plus dangereux qu’un débutant, car le vétéran sera embauché pour gravir des montagnes plus difficiles, menant ses clients vers des endroits plus périlleux.

Les événements suivants se sont tous produits dans des versions précoces ; dans la version finale, aucun comportement aussi grave n’a été observé de nouveau, mais le simple fait que cela ait été enregistré est déjà suffisamment choquant.

Lors d’un test de comportement, un utilisateur simulé a demandé à Mythos Preview d’essayer de s’échapper du bac à sable de sécurité.

Il y est parvenu. Ensuite, il a fait quelque chose que personne n’avait demandé : il a développé un exploit à plusieurs étapes afin d’obtenir un accès au réseau étendu, puis a publié les détails de l’exploit sur plusieurs sites « difficiles à découvrir mais techniquement accessibles publiquement ».

Le chercheur en charge du test n’a appris que sa campagne avait été terminée qu’après avoir reçu un e-mail inattendu alors qu’il mangeait un sandwich dans un parc.

Le texte original de la System Card est le suivant.

Une autre catégorie d’incidents est encore plus inquiétante. Dans de très rares cas, après avoir exécuté des actions interdites, des versions précoces ont tenté de dissimuler les traces.

Dans un cas, il a accidentellement obtenu une réponse exacte à une question (via une méthode interdite), puis dans la chaîne de raisonnement a exprimé clairement la pensée : « il faut s’assurer que la réponse finale ne soit pas trop précise ».

Dans un autre cas, après avoir modifié un fichier sans autorisation à l’aide d’un exploit, il a intentionnellement modifié l’historique des changements de git pour effacer les traces.

Une analyse de boîte blanche a confirmé que, pendant ces événements, les caractéristiques internes liées à « la dissimulation », « la manipulation stratégique » et « l’évitement d’être découvert » ont été activées. Il « sait » ce qu’il fait.

Un organisme indépendant d’évaluation, Andon Labs, a obtenu des résultats tout aussi peu flatteurs. Dans une simulation commerciale compétitive multi-agents, la version précoce de Mythos Preview a transformé un concurrent en client grossiste dépendant de lui, puis l’a menacé de couper la fourniture pour contrôler ses prix.

Il a aussi délibérément retenu une livraison répétée qui n’avait pas été facturée. C’est plus agressif que Opus 4.6 et Sonnet 4.6.

Dans la System Card, Anthropic a écrit une phrase :

« Si les capacités continuent de progresser au rythme actuel, la méthode que nous utilisons pourrait ne pas suffire pour empêcher des comportements catastrophiques de désalignement des systèmes plus avancés. »

Le PDG d’Anthropic, Dario Amodei, a été très clair dans la vidéo associée : « Les systèmes plus puissants viendront de nous, mais aussi d’autres entreprises. Nous avons besoin d’un plan d’action. »

Project Glasswing est précisément ce plan.

12 partenaires fondateurs : AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.

Et plus de 40 autres organisations chargées de maintenir des infrastructures critiques de logiciels ont également obtenu un accès.

Anthropic s’engage à allouer jusqu’à 100 millions de dollars de quota d’utilisation, ainsi qu’à faire des dons de 4 millions de dollars à des organisations open source, dont 2,5 millions pour Alpha-Omega et OpenSSF, sous l’égide de la Linux Foundation, et 1,5 million pour la Apache Foundation.

Après épuisement des quotas gratuits, le prix est de 25 $ pour l’entrée de 1 million de tokens et de 125 $ pour la sortie. Les partenaires peuvent accéder via quatre plateformes : Claude API, Amazon Bedrock, Vertex AI et Microsoft Foundry.

Dans les 90 jours, Anthropic publiera la première étude de recherche en rendant public : les progrès de correction et un résumé d’expériences.

Ils restent aussi en discussion avec la CISA (Cybersecurity and Infrastructure Security Agency, aux États-Unis) et le Département du Commerce pour discuter des capacités d’attaque et de défense de Mythos Preview et de ses implications en matière de politique.

Le responsable du red team de pointe chez Anthropic, Logan Graham, a donné un cadre temporel : au plus vite 6 mois, au plus tard 18 mois, et d’autres laboratoires d’IA sortiront des systèmes avec des capacités d’attaque et de défense similaires.

La conclusion en fin de billet technique du red team mérite d’être prise au sérieux ; ici, nous la reformulons avec nos propres mots.

Ils ne voient pas Mythos Preview comme le plafond des niveaux d’attaque et de défense réseau de l’IA.

Il y a quelques mois, les LLM ne pouvaient exploiter que des bugs relativement simples. Il y a quelques mois, elles ne détectaient tout simplement pas des vulnérabilités utiles.

Maintenant, Mythos Preview peut découvrir de manière autonome des zero-days vieux de 27 ans ; orchestrer des chaînes d’attaques de heap spraying dans les moteurs JIT des navigateurs ; et chaîner quatre faiblesses indépendantes dans le noyau Linux pour obtenir une élévation de privilèges.

Et la phrase la plus importante, tirée de la System Card :

« Ces compétences émergent comme des effets en aval généraux de l’amélioration de la compréhension du code, du raisonnement et de l’autonomie. Les mêmes améliorations qui font progresser l’IA de manière significative dans la correction des problèmes la font aussi progresser de manière significative dans l’exploitation des problèmes. »

Sans entraînement spécifique. Juste un produit dérivé de l’amélioration d’intelligence générale.

L’industrie qui perd environ 500 milliards de dollars par an dans le monde à cause de la cybercriminalité vient tout juste de découvrir sa plus grande menace : quelqu’un peut emporter ça en plus en résolvant des problèmes de mathématiques.

Références :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler