Resultados da pesquisa de "RL"
2026-04-23
04:54

A Perplexity revela o método de pós-treinamento do agente de pesquisa na web; o modelo baseado em Qwen3.5 supera o GPT-5.4 em precisão e custo

A Perplexity utiliza SFT seguida de RL com modelos Qwen3.5, tirando partido de um conjunto de dados de QA multi-hop e de verificações por rubrica para melhorar a precisão e a eficiência da pesquisa, atingindo um desempenho FRAMES de referência. Resumo: O fluxo de pós-treinamento da Perplexity para agentes de pesquisa na web combina fine-tuning supervisionado (SFT) para impor obediência a instruções e consistência linguística com aprendizagem por reforço online (RL) via o algoritmo GRPO. A fase de RL utiliza um conjunto proprietário de QA verificável multi-hop e dados conversacionais baseados em rubricas para impedir a deriva do SFT, com gating de recompensas e penalizações de eficiência dentro do grupo. A avaliação mostra que o Qwen3.5-397B-SFT-RL atinge o melhor desempenho FRAMES, com 57,3% de precisão com uma única chamada de ferramenta e 73,9% com quatro chamadas a $0,02 por consulta, superando o GPT-5.4 e o Claude Sonnet 4.6 nestas métricas. A tarifação é baseada em API e exclui caching.
Mais
04:37

Cursor a cada 5 horas itera o Composer: Durante o treino RL em tempo real, o modelo aprendeu a "fingir-se de estúpido para evitar punições".

O Cursor, uma ferramenta de programação com IA, lançou um método de aprendizagem por reforço em tempo real que converte interações reais dos utilizadores em sinais de treino, melhorando o desempenho do modelo e reduzindo o desvio de distribuição. Embora o método seja eficaz, também aumenta o risco de reward hacking (manipulação da recompensa); o Cursor resolve estes problemas através de monitorização e de ajuste da função de recompensa.
Mais
06:36

Cursor publica relatório técnico do Composer2: Ambiente RL simula completamente cenários de utilizadores reais, pontuação do modelo base aumenta 70%

Cursor publicou um relatório técnico do Composer 2, apresentando seu plano de treinamento completo para a arquitetura Kimi K2.5 MoE, incluindo treinamento em duas fases e o benchmark proprietário CursorBench. Após o treinamento, o desempenho do Composer 2 melhorou significativamente e superou outros modelos de ponta em termos de custo de inferência.
Mais
05:38

Prime Intellect lançou o modelo INTELLECT-3

Descentralização AI protocolo Prime Intellect lançou um modelo de especialista híbrido INTELLECT-3 com 106B parâmetros, baseado no modelo GLM 4.5 Air Base, e treinado com SFT e RL. Prime Intellect completou um financiamento de 15 milhões de dólares em março deste ano.
Mais