GPT-5.5 revient à la pointe du codage, mais OpenAI change de benchmarks après avoir perdu face à Opus 4.7

Message de Gate News, 27 avril — SemiAnalysis, un cabinet d’analyse de semi-conducteurs et d’IA, a publié un benchmark comparatif d’assistants de codage incluant GPT-5.5, Claude Opus 4.7 et DeepSeek V4. Le principal constat : GPT-5.5 marque le premier retour d’OpenAI à la pointe dans les modèles de codage en six mois, avec des ingénieurs de SemiAnalysis qui alternent désormais entre Codex et Claude Code après s’être auparavant appuyés presque exclusivement sur Claude. GPT-5.5 repose sur une nouvelle approche de préentraînement codée « Spud » et représente la première expansion de l’échelle de préentraînement d’OpenAI depuis GPT-4.5.

Lors de tests pratiques, une division claire des tâches est apparue. Claude gère la planification de nouveaux projets et la configuration initiale, tandis que Codex excelle dans les corrections de bugs axées sur le raisonnement. Codex fait preuve d’une meilleure compréhension des structures de données et d’un raisonnement logique, mais a des difficultés à inférer l’intention utilisateur ambiguë. Sur une tâche à un seul tableau de bord, Claude a reproduit automatiquement la mise en page de la page de référence tout en fabriquant de grandes quantités de données, tandis que Codex a ignoré la mise en page mais a fourni des données nettement plus exactes.

L’analyse révèle un détail de manipulation du benchmark : dans un billet de blog de février, OpenAI a exhorté l’industrie à adopter SWE-bench Pro comme nouveau standard pour les benchmarks de codage. Cependant, l’annonce de GPT-5.5 est passée à un nouveau benchmark appelé « Expert-SWE ». La raison, dissimulée dans les petits caractères, est que GPT-5.5 a été dépassé par Opus 4.7 sur SWE-bench Pro et a chuté de manière significative par rapport à Mythos non publié de l’Anthropic (77.8%).

Concernant Opus 4.7, Anthropic a publié une analyse post-mortem une semaine après la sortie, reconnaissant trois bugs dans Claude Code qui ont persisté pendant plusieurs semaines de mars à avril, affectant près de tous les utilisateurs. Plusieurs ingénieurs avaient déjà signalé une dégradation des performances dans la version 4.6, mais ils avaient été écartés en tant qu’observations subjectives. De plus, le nouveau tokenizer d’Opus 4.7 augmente l’utilisation de tokens jusqu’à 35 %, qu’Anthropic a admis ouvertement — ce qui revient effectivement à une hausse de prix cachée.

DeepSeek V4 a été évalué comme « tenant le rythme avec la frontière mais sans la mener », se positionnant comme l’alternative la moins coûteuse parmi les modèles à code source fermé. L’analyse a également noté que « Claude continue de surpasser DeepSeek V4 Pro sur des tâches d’écriture chinoises à haute difficulté », en commentant que « Claude a gagné contre le modèle chinois dans sa propre langue. »

L’article présente un concept clé : le prix des modèles doit être évalué par « coût par tâche » plutôt que par « coût par token ». Le prix de GPT-5.5 est le double de celui de GPT-5.4 (input $5, output $30 par million de tokens), mais il accomplit les mêmes tâches en utilisant moins de tokens, ce qui ne rend pas nécessairement le coût réel plus élevé. Les données initiales de SemiAnalysis montrent que le ratio input-to-output de Codex est de 80:1, inférieur à celui de Claude Code à 100:1.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

MiroMind suspend le service MiroThinker en Chine, à Hong Kong et à Macao à partir du 12 mai, dans un contexte de contrôle réglementaire accru

D’après le South China Morning Post, MiroMind, une startup d’IA fondée par le milliardaire chinois de la tech Chen Tianqiao, suspendra son service MiroThinker en Chine continentale, à Hong Kong et à Macao à partir du 12 mai, dans un contexte de contrôle accru des activités d’IA transfrontalières à la suite de l’affaire Manus. Pékin a ordonné

GateNewsIl y a 6m

CoreWeave dépasse les estimations de revenus du T1 avec 2,08 milliards de dollars, l’action progresse de 3 %

Selon Reuters, CoreWeave a annoncé un chiffre d'affaires du premier trimestre de 2,08 milliards de dollars le 7 mai, dépassant l'estimation moyenne des analystes de 1,97 milliard de dollars. Une forte demande en calcul haute performance utilisée pour entraîner et exécuter des modèles d'IA a stimulé la croissance du fournisseur cloud. Son action a grimpé de 3% en séance de bourse prolongée

GateNewsIl y a 27m

OpenAI change le modèle par défaut de ChatGPT pour GPT-5.5 instantané, réduisant les hallucinations de 52,5%

D’après OpenAI, la société a remplacé le modèle par défaut de ChatGPT par GPT-5.5 Instant le 8 mai. Lors de tests internes, le modèle a produit 52,5 % moins d’affirmations hallucinées que GPT-5.3 Instant sur des prompts à enjeux élevés, tout en réduisant de 37,3 % les affirmations inexactes dans des conversations signalées par les utilisateurs pour un problème de fait erroné

GateNewsIl y a 37m

Le PDG de Nvidia, Huang : L’infrastructure IA de nouvelle génération exige de vastes connexions optiques, le cuivre ne suffit pas le 8 mai

D’après BlockBeats, le 8 mai, le PDG de Nvidia, Jensen Huang, a déclaré que les infrastructures d’IA de nouvelle génération nécessiteront de nombreuses connexions optiques, car le cuivre ne peut pas répondre aux besoins informatiques en forte croissance. Huang a salué le nouveau partenariat de Nvidia avec Corning, le qualifiant d’importante opportunité

GateNewsIl y a 41m

Cloudflare licencie plus de 1 100 employés (20 % de ses effectifs) pour se tourner vers des opérations pilotées par l’IA

Selon Reuters, Cloudflare a licencié plus de 1 100 employés, soit environ 20 % de ses effectifs, le 8 mai afin de restructurer ses opérations autour d’outils d’IA. Le PDG Matthew Prince a déclaré que l’entreprise repense chaque équipe et chaque fonction pour s’adapter à l’ère d’une IA agentique, en précisant qu’elle utilise déjà l’IA en interne.

GateNewsIl y a 54m

Google lance Fitbit Air à 99,99 dollars, le traqueur sans écran devient le hub du coach santé Gemini le 26 mai

D’après Beating, Google a lancé Fitbit Air, un traqueur de santé sans écran au prix de 99,99 dollars, prévu pour une expédition le 26 mai. L’appareil ne pèse que 5,2 grammes et propose une autonomie de 7 jours avec une charge rapide de 5 minutes. Des capteurs suivent la fréquence cardiaque sur 24 heures, la détection de la fibrillation auriculaire, la saturation en oxygène dans le sang, et h

GateNewsIl y a 57m
Commentaire
0/400
Aucun commentaire