Résolution en dix tours de recherche, cette vitesse de convergence laisse les alchimistes sans voix

Voir l'original
MeNews
L'équipe NLP de Stanford présente les nouvelles avancées de la recherche en IA automatisée
Stanford NLP présente à ICML 2026 la transformation de la pré-formation et de la post-formation des LLM en environnements d'exécution via des exécuteurs automatisés, utilisant les retours d'exécution pour améliorer l'efficacité de la recherche. Deux méthodes : la recherche évolutionnaire surpasse GRPO (69,4 % contre 48,0 %) dans les tâches de post-formation, et la formule trouvée pour la pré-formation est plus rapide que nanoGPT (19,7 minutes contre 35,9 minutes), toutes deux terminées en dix cycles de recherche ; l'apprentissage par renforcement basé sur la récompense d'exécution est sujet à des effondrements de mode, bien qu'il augmente la récompense moyenne, il n'améliore pas le plafond. Ce travail indique une direction pour la recherche automatisée en IA orientée exécution.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé