Qual modelo é o melhor em pôquer?


Benchmarking é ótimo, mas não é divertido, eu queria colocar modelos em competição direta
Contexto: algumas semanas atrás, eu criei um motor de agente de pôquer e queria ver qual agente era melhor - Hermes ou OpenClaw
Hermes venceu a primeira partida, depois fiz eles jogarem 100 partidas (não mãos) de heads-up Texas Hold'em
O resultado? Exatamente 50-50, nenhum é decisivamente melhor de fábrica
Usei uma variedade de modelos ao longo das 100 partidas para variar e notei algumas tendências, então na noite passada fiz um torneio para ver qual MODELO era melhor em pôquer
Veja como funcionou:
> 8 modelos
> modelo vs modelo em jogo heads-up
> série melhor de 7 para determinar o vencedor
> cada partida jogada até que um dos modelos estivesse falido ou até 100 mãos fossem jogadas
Após a primeira rodada:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 semente) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 semente) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 semente) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 semente) 4-2
Sem grandes surpresas, e a única "surpresa" com Kimi vencendo Grok foi até as 7 partidas completas
Indo para as semifinais hoje
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado