Há dois anos vivíamos num mundo diferente. Abríamos uma API — e modelos grandes geravam continuamente código, texto, respostas para qualquer coisa. Ninguém se preocupava com o fato de enviarmos ao Prompt milhares de palavras de documentos, obrigando o GPT-4 a fazer tarefas simples como capitalizar texto. Por quê? Porque era barato. Investidores pagavam. Empresas subsidiavam. Era um período de uso gratuito de recursos.

Mas o sonho acabou. A potência está a ficar mais cara em todo lado — isto não é previsão, é a realidade que está a acontecer agora mesmo. A luta pelo NVIDIA H100 tornou-se num conflito geopolítico. O consumo de energia dos centros de dados aproxima-se dos limites das redes elétricas. Os grandes players já não jogam na caridade.

Quando o seu negócio escala e as solicitações diárias ultrapassam milhões de chamadas, um pagamento insignificante por 1K tokens transforma-se numa cascata de custos. É uma máquina de escoar dinheiro. Um pesadelo que acorda os CFOs das startups no meio da noite. O token tornou-se uma unidade monetária real.

Onde é que os seus tokens se perdem? As pessoas muitas vezes não percebem. Olham para as contas mensais que aumentam, como se fosse um livro incompreensível. A perda acontece nos lugares mais discretos.

Primeiro: conversa educada com a IA. «Olá, pode ajudar-me? Muito obrigado, por favor...» Para uma pessoa, é normal, mas na economia de tokens é um roubo. Modelos grandes não precisam dos seus «por favor» e «obrigado». Cada palavra é um token, cada espaço é dinheiro. Ainda pior — dicas de sistema extremamente longas, que se repetem em cada sessão: «Siga os dez princípios...» «Se não souber, diga que não sabe...» Úteis? Sim. Mas se se repetem milhões de vezes, são perdas astronómicas.

Segundo: RAG não controlado. Ideal: extrair três frases relevantes. Na prática: o utilizador faz uma pergunta, o sistema extrai dez documentos PDF de 10 mil palavras e envia-os ao modelo. O desenvolvedor pensa: «Deixe-o procurar sozinho». Não é preguiça, é um crime contra a potência computacional. Informação irrelevante não só atrapalha o mecanismo de atenção, como também leva a um consumo astronómico de tokens. Achava que fazia uma pergunta simples, mas na verdade fez o modelo ler metade de uma biblioteca.

Terceiro: agente sem limites. O modo ReAct faz a IA pensar e agir como uma pessoa. Mas se a API for desligada ou a lógica entrar num ciclo, o agente ficará a girar indefinidamente. Cada ciclo de raciocínio consome tokens caros — eles custam várias vezes mais do que os tokens de entrada. Um agente sem um mecanismo de paragem de emergência adequado é um buraco negro que consome o seu orçamento.

Como economizar? Primeiro: cache semântico. As solicitações dos utilizadores são frequentemente semelhantes. «Como redefinir a senha?» chega centenas de vezes por dia. Em vez de usar GPT-4 toda hora — converta a solicitação num vetor, compare com o cache. Se a similaridade for alta, devolva a resposta do cache. Sem tokens. Com atraso de segundos a milissegundos. Isto não é só economia, é uma melhoria na experiência.

Segundo: compressão de dicas. Contexto longo é um pecado. Algoritmos baseados em entropia de informação analisam quais palavras são críticas e quais são redundantes. Pode comprimir um texto de 1000 tokens para 300, mantendo a essência. Permite que as máquinas comuniquem na sua linguagem — aos olhos humanos parece desajeitado, mas a IA entende. Economiza 70% dos custos.

Terceiro: roteamento de modelos. Não envie tudo para o modelo mais caro. Para tarefas simples de extração de entidades ou tradução, use modelos abertos baratos como Llama 3 8B. Para raciocínio lógico complexo, utilize GPT-4 ou Claude 3.5 Sonnet. Como uma empresa bem organizada: pedidos que podem ser resolvidos na recepção não vão ao CEO. Quem configurar isto com mais precisão poderá reduzir os custos totais de tokens para um décimo do que os concorrentes.

A linha da frente já percebeu isto. Quando olhamos para os ecossistemas mais avançados de agentes — especialmente aqueles que se movem para dispositivos móveis — vemos uma batalha pela máxima otimização de tokens. Nos dispositivos móveis, não há espaço para contexto extenso. A capacidade de processamento é limitada, a memória é limitada, a energia é limitada.

OpenClaw controla o uso de tokens quase obsessivamente. Em vez de aplicar um contexto completo de forma grosseira, baseia-se em dados estruturados. Obriga o modelo a gerar resultados num esquema JSON rigoroso. Não permite que a IA «comunique-se» — obriga-a a «preencher formulários». Isto reduz símbolos desnecessários, economiza tráfego.

Hermes Agent, da Nous Research, mostra uma gestão cirúrgica do contexto. Em vez de guardar toda a história, introduz memória dinâmica. Memória de trabalho: os últimos 3-5 diálogos. Memória de longo prazo: quando o contexto enche, uma IA leve resume o diálogo em algumas frases, guardando-o numa base vetorial. O diálogo antigo é eliminado, mas o conhecimento é preservado. Isto não é lixo, é uma remoção cirúrgica. Este tipo de gestão de contexto não só supera limitações físicas, como também, a nível macro, reduz drasticamente os custos.

A tendência principal é clara: os futuros agentes não competirão por usar mais ferramentas, mas por realizar tarefas mais complexas com orçamentos de tokens extremamente limitados. Dançar em cadeias. Quem dançar melhor, ganha.

Mas tudo isto são detalhes técnicos. Na essência — é uma mudança de mentalidade em toda a indústria de IA. Antes, tratávamos os tokens como um bem de consumo. Víamos um desconto e colocávamos no carrinho. Não importava se realmente precisávamos de um modelo grande, o que importava era parecer «incrível». Empresas conectavam cegamente LLMs a tudo, criavam contas para cada funcionário, até para o menu do refeitório. Quando recebiam a conta — ficavam chocadas.

Agora, é preciso passar a uma mentalidade de investimento. Cada consumo de token é um investimento. Com investimentos, calcula-se ROI. Este token gasto — o que me trouxe? Aumentou a taxa de resolução de tickets? Reduziu o tempo de correção de bugs? Ou é só «Haha, que IA divertida»?

Se uma função que usa aprendizagem automática tradicional custa 10 cêntimos, e um grande modelo exige 1 dólar por token, mas aumenta a conversão só em 2% — corte sem hesitar. Já não buscamos «IA grande e abrangente», mas «pequena e aprimorada», com ataques precisos.

É preciso aprender a dizer «não» aos departamentos de negócio. Quando perguntam: «A IA pode ler todos os 100 mil relatórios e fazer um resumo?» — pergunte de volta: «O seu negócio cobre alguns milhões de tokens de custo?» Faça as contas. Economize. Conte tokens como um dono de loja tradicional.

Não soa a cyberpunk. Parece rural. Mas é uma etapa necessária no caminho para a maturidade da IA.

O aumento generalizado do hash rate não é uma crise, mas uma limpeza tardia. Estourou a bolha de subsídios ilimitados e trouxe todos de volta à fria realidade. Mas isso é bom. Obriga a abandonar a fé cega na «grande força — o milagre» e a restabelecer o respeito pela eficiência engenheiral.

As empresas que sobrevivem e crescem — não são aquelas com os modelos mais caros. São aquelas que, ao verem as rápidas mudanças nos números de tokens, permanecem calmas e confiantes de que estão a ganhar mais do que gastam. Quando a maré recua, vê-se quem nada nu. Desta vez, a maré que recua é a do benefício do hash rate. Só quem extrair cada gota de token como ouro poderá assumir uma verdadeira armadura.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
325.41K Popularidade
#
CryptoMarketsDipSlightly
225.85K Popularidade
#
IsraelStrikesIranBTCPlunges
35.12K Popularidade
#
#DailyPolymarketHotspot
658.01K Popularidade
#
SolanaReleasesQuantumRoadmap
12.74M Popularidade

Fixar

Chegou a era em que era possível usar recursos computacionais livremente sem pensar no custo. A taxa de hash está a subir, e isso está a mudar tudo.

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SolanaReleasesQuantumRoadmap

Fixar