Anthropic identifie trois changements au niveau de la couche produit à l’origine de la baisse de qualité de Claude Code, et non un problème de modèle

Message de Gate News, 23 avril — L’équipe d’ingénierie d’Anthropic a confirmé que la dégradation de la qualité de Claude Code signalée par les utilisateurs au cours du mois écoulé provenait de trois changements indépendants au niveau de la couche produit, et non de problèmes liés à l’API ou au modèle sous-jacent. Les trois problèmes ont été corrigés respectivement les 7 avril, 10 avril et 20 avril, avec désormais une version finale en v2.1.116.

Le premier changement est intervenu le 4 mars, lorsque l’équipe a abaissé le niveau d’effort de raisonnement par défaut pour Claude Code de “high” à “medium” afin de traiter des pics de latence extrêmes occasionnels dans Opus 4.6 lorsque l’intensité de raisonnement est élevée. Après de nombreuses plaintes d’utilisateurs concernant une baisse des performances, l’équipe a annulé le changement le 7 avril. Le paramètre par défaut actuel est désormais “xhigh” pour Opus 4.7 et “high” pour les autres modèles.

Le second problème était un bug introduit le 26 mars. Le système était conçu pour effacer d’anciens enregistrements de raisonnement après que l’inactivité de la conversation dépassait une heure afin de réduire les coûts de récupération de session. Toutefois, une erreur dans l’implémentation a fait que l’effacement s’exécutait à répétition à chaque tour ultérieur, au lieu de s’exécuter une seule fois, ce qui a entraîné une perte progressive du contexte de raisonnement antérieur. Cela s’est manifesté par une augmentation de l’oubli, des opérations répétées et des invocations d’outils anormales. Le bug a également entraîné des ratés de cache à chaque requête, accélérant la consommation des quotas des utilisateurs. Deux expériences internes sans lien ont masqué les conditions de reproduction, prolongeant le processus de débogage à plus d’une semaine. Après la correction intervenue le 10 avril, l’équipe a examiné le code problématique à l’aide d’Opus 4.7 et a constaté qu’Opus 4.7 pouvait identifier le bug, contrairement à Opus 4.6.

Le troisième changement a été lancé le 16 avril en même temps que Opus 4.7. L’équipe a ajouté des instructions au prompt système pour réduire la sortie redondante. Les tests internes menés sur plusieurs semaines n’ont montré aucune régression, mais après le lancement, les interactions avec d’autres prompts ont dégradé la qualité du codage. Une évaluation prolongée a révélé une baisse de 3 % des performances pour Opus 4.6 et 4.7, entraînant un rollback le 20 avril.

Ces trois changements ont touché différents groupes d’utilisateurs à des moments différents, et leur effet combiné a entraîné une baisse de qualité généralisée et incohérente, compliquant le diagnostic. Anthropic a indiqué qu’elle exigera désormais que davantage d’employés internes utilisent la même version de build publique que les utilisateurs, qu’ils exécutent des suites complètes d’évaluation du modèle pour chaque modification de prompt système et qu’ils mettent en œuvre des périodes de déploiement progressif. En guise de compensation, Anthropic a réinitialisé les quotas d’utilisation pour tous les utilisateurs disposant d’un abonnement.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Un travailleur remporte une affaire historique de substitution par l’IA en Chine

Des experts ont déclaré que la décision, qui établit un précédent pour de futurs cas de substitution par l’IA, précise que le remplacement par l’IA ne peut pas être invoqué comme justification pour renoncer à un contrat de travail. La Chine est le deuxième plus grand pôle mondial de l’IA. Points clés : Le tribunal de Hangzhou a statué que remplacer Zhou w

CoinpediaIl y a 13m

La législature du Minnesota interdit les outils de deepfake nus générés par IA, avec des sanctions pouvant aller jusqu’à $500K par violation

Selon Decrypt, le 2 mai, la législature du Minnesota a adopté un projet de loi interdisant aux sites web et aux applications de fournir des outils d'IA capables de générer des images nues fausses et réalistes d'individus identifiables. La mesure, transmise au gouverneur Tim Walz pour signature, interdit aux plateformes de permettre aux utilisateurs d'accéder à

GateNewsIl y a 14m

OpenAI autorise les abonnements à ChatGPT à fonctionner sur la plateforme d’agents OpenClaw

D’après le PDG d’OpenAI, Sam Altman, le 2 mai, les utilisateurs de ChatGPT peuvent désormais se connecter à la plateforme d’agents OpenClaw avec leurs comptes ChatGPT et utiliser directement leurs abonnements existants à ChatGPT sur la plateforme.

GateNewsIl y a 1h

Le régulateur sud-coréen FSC approuve le 3 mai un investissement de 381 millions de dollars dans la startup d’IA Upstage

D’après The Korea Times, le 3 mai, la Commission des services financiers sud-coréenne a approuvé un investissement de 560 milliards de won (381 millions de dollars) dans la startup d’IA Upstage. Ce financement marque le deuxième investissement direct du Korea National Growth Fund. Upstage, fondée en 2020, développe des logiciels d’IA et des logiciels

GateNewsIl y a 1h

Gartner prévoit que les dépenses mondiales en IA atteindront 2,5 billions de dollars en 2026, dépassant le total de la décennie précédente

D’après Gartner, les dépenses mondiales en intelligence artificielle en 2026 devraient atteindre 2,5 billions de dollars, dépassant le total cumulé des dix années précédentes.

GateNewsIl y a 2h

Cerebras vise $4 billion dans une introduction en bourse avec une valorisation cible de 40 milliards de dollars

D’après Bloomberg, le fabricant de puces d’IA Cerebras Systems cherche à lever jusqu’à $4 milliards dans le cadre de son introduction en bourse, avec une valorisation cible d’environ 40 milliards de dollars. La société basée en Californie prévoit de lancer sa tournée de présentation de l’IPO dès lundi (5 mai). Les preneurs fermes ont

GateNewsIl y a 3h
Commentaire
0/400
Aucun commentaire