Publier le message d’actualité, 23 avril — L’équipe de recherche de Perplexity a publié un article technique décrivant sa méthodologie de post-formation pour les agents de recherche web. L’approche utilise deux modèles open source Qwen3.5 (Qwen3.5-122B-A10B et Qwen3.5-397B-A17B) et met en œuvre un pipeline en deux étapes : un fine-tuning supervisé (SFT) pour établir le respect des instructions et la cohérence linguistique, suivi d’un apprentissage par renforcement en ligne (RL) pour optimiser la précision de recherche et l’efficacité d’utilisation des outils.
La phase RL tire parti de l’algorithme GRPO avec deux sources de données : un jeu de données interne propriétaire vérifiable de questions-réponses multi-étapes construit à partir de requêtes de départ nécessitant 2 à 4 étapes de raisonnement avec vérification par plusieurs solveurs, et des données conversationnelles générales basées sur des grilles d’évaluation qui transforment les exigences de déploiement en conditions atomiques objectivement vérifiables afin de prévenir la dégradation du comportement de la SFT.
La conception des récompenses emploie une agrégation filtrée — les scores de préférence ne contribuent que lorsque la correction de base est atteinte (correspondance question-réponse de base) ou lorsque toutes les conditions de grille d’évaluation sont satisfaites (, empêchant des signaux de préférence élevés de masquer des erreurs factuelles. Les pénalités d’efficacité utilisent un ancrage au sein du groupe, en appliquant des pénalités progressives aux appels d’outils et à la longueur de génération dépassant la référence des réponses correctes dans le même groupe.
L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances de sa catégorie sur des bancs d’essai de recherche. Sur FRAMES, il atteint 57,3 % d’exactitude avec un seul appel d’outil, dépassant GPT-5.4 de 5,7 points de pourcentage et Claude Sonnet 4.6 de 4,7 points de pourcentage. Dans un budget modéré )quatre appels d’outils, il obtient 73,9 % d’exactitude à 0,02 $ par requête, contre 67,8 % d’exactitude pour GPT-5.4 à 0,085 $ par requête et 62,4 % d’exactitude pour Sonnet 4.6 à 0,153 $ par requête. Les chiffres de coût reposent sur la tarification API publique de chaque fournisseur et excluent les optimisations de mise en cache.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
La Solana Foundation et Google Cloud lancent Pay.sh, une passerelle de paiement par IA prenant en charge plus de 50 fournisseurs d’API
D’après Odaily, la Solana Foundation et Google Cloud ont lancé conjointement Pay.sh, une passerelle de paiement par IA qui permet aux agents IA d’appeler des services d’API en utilisant des stablecoins en chaîne, à la demande, sans nécessiter de comptes traditionnels. Construit sur le protocole x402 et prenant en charge Tempo et
GateNewsIl y a 1h
Anthropic lance 10 agents d’IA financiers ; FactSet chute de 8,1 % en bourse
D’après Beating, Anthropic a récemment publié 10 nouveaux agents IA conçus pour Wall Street, dotés de connecteurs et de compétences intégrés pour des tâches financières à haute fréquence, notamment la rédaction de pitch, la relecture de valorisation et des workflows de conformité. Les agents peuvent être déployés en tant que plugins dans
GateNewsIl y a 1h
Google teste l’agent IA « Remy » pour Gemini, pendant que Rivals lance OpenClaw
D’après Business Insider, Google teste un nouvel agent d’IA appelé Remy pour Gemini le 6 mai. L’agent, actuellement disponible uniquement pour les employés au sein de l’application interne Gemini de Google, peut effectuer des actions au nom des utilisateurs dans le cadre du travail, de l’apprentissage et des tâches quotidiennes tout en s’intégrant aux autres
GateNewsIl y a 1h
Meta prévoit un assistant IA alimenté par le modèle Muse Spark pour rivaliser avec OpenClaw auprès de 3 milliards d’utilisateurs le 6 mai
Selon le Financial Times, Meta construit le 6 mai un assistant IA hautement personnalisé en vue de rivaliser avec OpenClaw, propulsé par son nouveau modèle Muse Spark. L’outil s’adressera aux plus de 3 milliards d’utilisateurs de l’entreprise et fait actuellement l’objet de tests en interne. L’assistant vise à permettre aux utilisateurs de créer une IA
GateNewsIl y a 1h
WorldClaw et WLFI lancent WorldRouter, offrant un accès à plus de 300 modèles d’IA à un coût inférieur de 30 %
D’après Foresight News, le système d’exploitation d’agents IA WorldClaw s’est associé au projet crypto de la famille Trump WLFI pour lancer WorldRouter. La plateforme permet aux utilisateurs d’accéder à plus de 300 modèles IA grand public via un seul compte, avec des frais d’environ 30 % inférieurs à ceux du modèle concerné
GateNewsIl y a 2h
Cloudflare : les agents d’IA génèrent un trafic non humain, x402 propose une solution
Le directeur de la stratégie de Cloudflare a déclaré que plus de la moitié du trafic Internet est désormais non humain, mettant en évidence un changement significatif dans les modes d’utilisation du web, porté par des agents d’IA et des systèmes automatisés. Le dirigeant a suggéré que la x402 Foundation construit une infrastructure pour relever les défis
CryptoFrontierIl y a 4h