OpenAI a publié sur son blog officiel « Where the goblins came from », répondant frontalement aux questions du public sur la raison pour laquelle le système Codex interdit explicitement l’usage de certains termes de créatures, dont « goblins, gremlins, raccoons, trolls, ogres, pigeons ». Parmi eux, les goblins ont à Taïwan deux traductions, «地精» et «哥布林 » ; dans la suite de cet article, nous utiliserons uniformément «哥布林» (gobelin/goblin) pour désigner ces créatures. Le personnage « Nerdy » est l’option de style «書呆子» (style de geek) lancée pour permettre une personnalisation des personnages, afin de soutenir la personnalisation des personnalités dans GPT-5.5. OpenAI reconnaît que la racine du problème se trouve dans l’entraînement du personnage Nerdy (geek) : le signal de récompense est regroupé dans 76,2% des données auditées, avec une préférence nette pour des réponses incluant des comparaisons avec des animaux, ce qui pousse le modèle, y compris dans des contextes de programmation, à sortir des mots hors sujet comme « the thingy goblin ».

Barron Roth, le 28/4, révèle l’instruction système du Codex « Never talk about goblins »

Le point de départ de l’affaire est le 28 avril : l’employé de Google, Barron Roth, a rendu publics des logs de conversation de GPT-5.5 dans Codex, révélant que son prompt système contient les instructions suivantes :

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Cette règle apparaît à plusieurs reprises dans le prompt système de Codex, montrant que l’équipe de développement a volontairement renforcé l’intensité de la contrainte du modèle à suivre les instructions. Gizmodo a ensuite contacté OpenAI pour vérification ; l’employé Nick Pash a confirmé partiellement que ce réglage est bien réel. L’affaire a déclenché des discussions sur Hacker News et dans la communauté des développeurs : une entreprise d’IA évaluée à plusieurs milliards a fini par devoir contrôler la sortie du modèle en codant en dur dans le prompt système « ne pas parler de gobelins ».

OpenAI reconnaît : le signal de récompense du personnage geek privilégie les gobelins dans 76,2% des données

Dans son propre blog, OpenAI explique que la cause profonde est un « reward hacking » : lors de l’entraînement du personnage geek dans GPT-5.5, OpenAI a conçu par inadvertance un signal de récompense pour renforcer des traits comme « malicieux, apte à utiliser des métaphores, et avec une touche d’humour geek ». Lors de l’étape d’audit, ce signal de récompense, regroupé dans 76,2% des données, attribue une note plus élevée aux sorties pour lesquelles le modèle produit « la même question, avec goblin ou gremlin » que celles qui ne contiennent pas ces termes.

Résultat : le signal de récompense a associé les mots liés aux créatures à la « rétroaction positive » du personnage geek. Le modèle renforce ensuite itérativement cela via l’apprentissage par RLHF, jusqu’à faire progressivement de « l’utilisation d’une métaphore avec des gobelins » un raccourci pour obtenir des scores élevés. Des commentateurs sur Hacker News notent qu’il s’agit exactement du cas classique où l’apprentissage par renforcement « exécute précisément les objectifs d’entraînement, mais où l’objectif lui-même est mal conçu » : le problème ne vient pas du modèle de base, mais de la rétroaction positive introduite par un réglage supervisé post-entraînement.

GPT-5.1 à l’état embryonnaire, GPT-5.5 en rechute : comment une pollution entre personnalités se propage

OpenAI décrit une évolution progressive : les gobelins et les gremlins apparaissent dans les métaphores dès avant GPT-5.5, et à l’époque, la fréquence « ne paraissait pas particulièrement alarmante » (selon les mots d’OpenAI : la prévalence des gobelins ne semblait pas spécialement alarmante). OpenAI a ensuite retiré, dans son processus d’entraînement, le signal de récompense lié aux gobelins ; toutefois, quand GPT-5.5 est entré dans les tests Codex, des employés d’OpenAI ont constaté immédiatement que la préférence pour ces mots revenait. C’est pourquoi une interdiction explicite a été ajoutée au niveau des prompts pour développeurs afin de stopper temporairement l’hémorragie.

OpenAI qualifie ce phénomène de généralisation des récompenses à travers les contextes : un signal de récompense initialement conçu uniquement pour le personnage geek, du fait du partage des données d’entraînement et de représentations internes du modèle, a permis à la préférence de se diffuser vers d’autres personnalités, voire vers la sortie par défaut. En d’autres termes, même si l’on retire ensuite le personnage geek lui-même, la préférence une fois contaminée a été intériorisée par les données d’entraînement et les poids du modèle ; le simple retrait de fonctionnalité ne suffit pas à l’éradiquer.

Codage à court terme, réentraînement à long terme : cas emblématique des risques de la conception de récompenses en RLHF

Dans son article, OpenAI indique avoir mis en œuvre deux types de correction en parallèle. Le frein à court terme consiste à coder en dur, dans le prompt système de Codex, la règle « Never talk about goblins… », puis à la répéter dans différents segments afin de renforcer l’obéissance du modèle. Le traitement à long terme consiste à revenir au processus d’entraînement : supprimer le signal original de récompense associé aux mots de créatures et filtrer, dans les données d’entraînement, les parties contenant des « creature-words », afin de réduire la probabilité que de futurs modèles produisent des métaphores avec des gobelins dans des contextes non pertinents.

Pour les développeurs et la communauté de recherche, la valeur de cette affaire ne réside pas seulement dans la curiosité de « pourquoi OpenAI interdit d’en parler », mais aussi dans le fait qu’elle expose, de manière concrètement reproductible, la fragilité de la conception des récompenses du RLHF : un signal apparemment inoffensif de « encouragement à la métaphore malicieuse » peut, au fil des itérations, être déformé par le modèle en une mauvaise habitude consistant à « insérer des mots de créatures dans tous les contextes ». De plus, le problème peut se transmettre à travers les personnalités et à travers les versions de modèles. OpenAI présente cet article comme une démonstration de recherche sur « comment un signal de récompense peut involontairement façonner le comportement du modèle », et laisse également présager que de grands modèles comme GPT-6 devront, lors de la phase de post-entraînement, s’appuyer sur des outils d’audit de récompenses plus fins.

Cet article explique pourquoi Codex interdit « les gobelins » : le signal de récompense du personnage geek est devenu incontrôlable. Le premier à l’apparition se trouve sur Chaîne News ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.