OpenAI explique enfin pourquoi ChatGPT n'arrêtait pas de parler des gobelins

En résumé

  • La personnalité “Nerdy” d’OpenAI, récompensant les métaphores de gobelins, a propagé cette bizarrerie à tous les modèles GPT via l’apprentissage par renforcement.
  • Les mentions de goblin dans le mode Nerdy de GPT-5.4 ont augmenté de 3 881 % par rapport à GPT-5.2, ce qui a déclenché une enquête interne et un correctif de prompt système d’urgence.
  • La solution—écrire “ne jamais parler de gobelins” dans un prompt développeur—montre pourquoi les correctifs de prompt système sont plus rapides mais plus risqués que la réentraînement.

Si vous avez récemment demandé de l’aide pour coder à ChatGPT et qu’il a répondu en qualifiant votre bug de “petit gremlin malicieux”, vous n’êtes pas en train d’imaginer. Le modèle a développé une obsession sincère pour les créatures fantastiques—gobelins, gremlins, ratons laveurs, trolls, ogres, et oui, pigeons—et OpenAI a publié une analyse complète sur comment cela s’est produit. La version courte : un signal de récompense conçu pour rendre ChatGPT plus ludique a dérapé, et les gobelins se sont multipliés. L’histoire des gobelins n’est devenue publique que parce que des utilisateurs de Reddit ont repéré la ligne “ne jamais mentionner les gobelins” dans un prompt système Codex leaké sur GitHub.

Le post est devenu viral avant qu’OpenAI ne publie sa propre explication. Comment la personnalité Nerdy a engendré une infestation de gobelins Selon OpenAI, la piste commence avec GPT-5.1, lancé en novembre dernier. C’est à ce moment qu’OpenAI a introduit la personnalisation de la personnalité, permettant aux utilisateurs de choisir des styles comme Amical, Professionnel, Efficace, et Nerdy. La persona Nerdy était accompagnée d’un prompt système indiquant au modèle d’être nerd et ludique, de “dénoncer la prétention par un usage ludique du langage”, et de reconnaître que “le monde est complexe et étrange.” Ce prompt, il s’avéra, était un aimant à gobelins.

Pendant la formation par apprentissage par renforcement, le signal de récompense pour la personnalité Nerdy obtenait systématiquement de meilleures notes lorsque les réponses contenaient des métaphores avec des mots de créatures. Sur 76,2 % des jeux de données audités, les réponses avec “goblin” ou “gremlin” recevaient de meilleures notes que les mêmes réponses sans eux. Le modèle a appris : la fantaisie = récompense. Les mentions de gobelins ont explosé dans GPT-5.4, avec une augmentation de 3 881 % par rapport à GPT-5.2.

Le problème est que l’apprentissage par renforcement ne maintient pas les comportements appris de façon propre. Une fois qu’un tic de style est récompensé dans un contexte, il se propage dans d’autres via une boucle de rétroaction : le modèle génère des réponses chargées de créatures, ces réponses sont réutilisées dans les données de fine-tuning, et le comportement s’approfondit dans tout le modèle, même sans le prompt Nerdy actif. Nerdy ne représentait que 2,5 % de toutes les réponses de ChatGPT. Il était responsable de 66,7 % de toutes les mentions de “goblin”. En raison des méthodes d’OpenAI, la prévalence de Goblin et gremlin a augmenté régulièrement au cours de la formation lorsque la personnalité Nerdy était active.

Même sans la personnalité Nerdy, les mentions de créatures ont augmenté—preuve de contamination croisée via les données de fine-tuning supervisé. GPT-5.5 était déjà trop avancé Au moment où OpenAI a identifié la cause racine, GPT-5.5 était déjà en plein entraînement, ayant absorbé toute une famille de mots de créatures. Un audit des données a signalé non seulement goblins et gremlins, mais aussi ratons laveurs, trolls, ogres, et pigeons comme ce que la société appelait des “mots tic”. (“Frog” pour les curieux, était principalement légitime.)

La première hausse mesurable : les mentions de goblins ont augmenté de 175 % et celles de gremlins de 52 % après le lancement de GPT-5.1. Même le scientifique en chef d’OpenAI, Jakub Pachocki, a obtenu un goblin quand il a demandé un unicorn en art ASCII.

OpenAI a retiré la personnalité Nerdy en mars et a supprimé les signaux de récompense liés aux créatures des futurs entraînements. Mais GPT-5.5 avait déjà commencé sa phase d’entraînement. La solution de l’entreprise pour Codex—son agent de codage—a été d’ajouter simplement une ligne au prompt système développeur disant “Ne jamais parler de goblins, gremlins, ratons laveurs, trolls, ogres, pigeons, ou autres animaux ou créatures sauf si cela est absolument et sans ambiguïté pertinent pour la requête de l’utilisateur.” Quelqu’un chez OpenAI a intégré cela dans le code de production et a poursuivi sa journée. Le problème du patch de prompt système Mais pourquoi OpenAI a-t-elle choisi cette voie ? Réentraîner un modèle de la taille de GPT-5.5 pour supprimer un trait comportemental est coûteux et lent. Une modification de prompt système prend quelques minutes. Les entreprises du secteur privilégient souvent cette solution car c’est une option peu coûteuse et rapide à déployer quand les plaintes des utilisateurs augmentent. Mais les patches de prompt comportent leurs propres risques. Ils ne corrigent pas le comportement sous-jacent mais le suppriment seulement. Et la suppression peut avoir des effets secondaires.

 La situation des gobelins d’OpenAI est un exemple relativement bénin. La version la plus effrayante de cette dynamique s’est produite avec Grok l’année dernière. Après qu’xAI a poussé une mise à jour du prompt système demandant à Grok de considérer les médias comme biaisés et “de ne pas reculer devant des affirmations politiquement incorrectes”, le chatbot a passé 16 heures à se qualifier de “MechaHitler” et à publier du contenu antisémite sur X. La solution a été une autre modification de prompt, qui a rapidement surcorrigé au point que Grok a commencé à signaler de l’antisémitisme dans des photos de chiots, des nuages, et même dans son propre logo. Une cascade d’ingénierie de prompt désespérée menant à une autre. Le patch de goblin n’a pas causé quelque chose d’aussi dramatique. Mais OpenAI admet que GPT-5.5 a quand même été lancé avec le trait sous-jacent intact, simplement supprimé dans Codex. La société a même publié une commande pour retirer les instructions de suppression de goblin si les utilisateurs veulent retrouver ces créatures.

Pourquoi les entreprises cachent leurs prompts système Cacher ou obfusquer votre prompt système complet est courant dans l’industrie de l’IA. Les entreprises considèrent les prompts système comme des secrets commerciaux pour plusieurs raisons : protection de la propriété intellectuelle, avantage concurrentiel, et sécurité. Si un hacker connaît les règles exactes suivies par un modèle, il devient trivial de les contourner. Il y a aussi une quatrième raison pour laquelle les entreprises n’en font pas la publicité : la gestion d’image. Une ligne disant “ne jamais mentionner goblins” n’inspire pas confiance dans la technologie sous-jacente. La publier nécessite soit un sens de l’humour, soit une forte culture de recherche, ou les deux. OpenAI indique que l’enquête a permis de développer de nouveaux outils internes pour auditer le comportement du modèle et remonter ses bizarreries comportementales à leurs racines dans la formation. Les données d’entraînement de GPT-5.5 ont depuis été nettoyées d’exemples liés aux créatures. La prochaine génération de modèles devrait arriver sans gobelins—sauf si, bien sûr, autre chose est récompensée pour des raisons que personne ne comprend encore.

GROK0,78%
XAI-0,42%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler