Voltar para Biblioteca
Playbook·10 min·Jul 2026

Como Controlar o Custo de Inferência de LLM com Roteamento de Modelos

Controle o custo de inferência de LLM com roteamento de modelos sem perder qualidade. Barato por padrão, caro sob demanda, e cada troca com avaliação.

Controlar o custo de inferência de LLM é uma decisão de produto, não de finanças, e o roteamento de modelos é a alavanca. Mande cada requisição para um modelo barato por padrão, escale para um modelo caro só quando a tarefa exigir, use cache e lotes no que der, coloque orçamentos rígidos, e trave qualquer troca de modelo em um harness de avaliação. Faça isso e a inferência deixa de ser uma conta que você teme e vira uma margem que você guarda.

A Avante Ventures constrói assim porque o preço de um token cai mais rápido do que quase qualquer insumo na história do software. Quem vence não é quem espera o preço baixar. É quem desenhou o produto para capturar a queda.

Por que o custo de inferência é decisão de produto, não de finanças

O modelo pelo qual você paga um prêmio hoje será a opção de orçamento do ano que vem por uma fração do preço. Segundo a análise LLMflation da a16z, o desempenho no nível do GPT-3 custava cerca de $60 por milhão de tokens em novembro de 2021 e cerca de $0,06 em 2024 em um modelo aberto pequeno. É uma queda de aproximadamente 1.000x em três anos, perto de 10x mais barato por ano para um mesmo nível de capacidade. A medição independente da Epoch AI coloca a queda para uma capacidade fixa entre 9x e 900x por ano, com mediana em torno de 50x.

É por isso que o custo pertence à especificação do produto, não a uma revisão trimestral de finanças. Uma venture cujo produto já roda a maioria das requisições na camada barata captura essa deflação de forma automática, porque cada novo modelo que passa na sua barra de qualidade é mais barato que o anterior. Uma venture que fixou o modelo de fronteira em tudo paga o preço de ontem para sempre e não tem para onde cair.

Vale nomear a armadilha. A própria fronteira não fica mais barata. O o1 da OpenAI foi lançado pelo mesmo $60 por milhão de tokens de saída que o GPT-3 cobrava em 2021. A deflação está em alcançar uma capacidade fixa, não na fronteira. Então a pergunta real nunca é qual modelo é o melhor. É qual modelo é bom o suficiente para esta requisição específica, provado por avaliações.

O desempenho no nível do GPT-3 caiu de cerca de $60 por milhão de tokens em 2021 para cerca de $0,06 em 2024, perto de 10x mais barato a cada ano para uma capacidade fixa.

— a16z, LLMflation

Corte o custo de inferência de LLM em cinco passos

Aqui está a sequência que um operador consegue rodar esta semana. Cada passo é mensurável e reversível, e cada um assume que o anterior já está de pé.

  • Instrumente antes de otimizar. Registre tokens de entrada, tokens de saída, modelo, latência e custo em dólar por requisição, marcados por tipo de tarefa e por cliente. Você não roteia o que não vê, e a maioria dos times descobre 80% do gasto escondido em poucos tipos de tarefa.
  • Roteie barato por padrão, escale sob demanda. Mande cada requisição primeiro para um modelo pequeno, verifique a saída, e escale para o modelo caro só na falha.
  • Use cache e lotes de forma agressiva. Ligue o cache de prompt para as partes estáveis dos prompts e agrupe em lotes tudo o que não for sensível à latência.
  • Defina orçamentos rígidos e alertas. Coloque um teto de tokens por cliente e por ambiente com alerta em 70% e um limite duro, para que um loop de retry descontrolado acione um limite, não uma fatura.
  • Trave cada troca de modelo em avaliações. Nenhuma mudança de modelo, mais barata ou mais cara, entra sem passar no harness. É essa disciplina que corta custo sem cortar qualidade sem querer.

Roteamento de modelos: barato por padrão, caro sob demanda

Uma cascata de modelos manda cada requisição para o modelo capaz mais barato, verifica o resultado, e escala só o que falha. Toda a economia gira em torno de um número: a taxa de escalonamento, a fração do tráfego que cai para a camada cara.

Os números publicados são fortes. A análise de roteamento da TrueFoundry mostra que uma taxa de 70% de resolução na camada barata traz o custo combinado para cerca de metade de rodar o modelo de fronteira em tudo, mesmo pagando pela tentativa barata que falhou nos 30% que escalam. Com uma diferença de preço de 10x entre camadas, uma cascata chega perto de 40% do custo de fronteira-em-tudo. Relatos de quem opera colocam a economia real entre 45% e 85% mantendo cerca de 95% da qualidade.

Comece com o roteador mais simples que funciona. Regras estáticas que escolhem o modelo a partir de uma etiqueta de tarefa custam quase nada para rodar. O roteamento por custo escolhe o modelo mais barato que passa de um limiar de qualidade. O roteamento semântico embute a requisição e classifica a intenção por alguns milissegundos de overhead. A cascata fica por cima. Acompanhe a taxa de escalonamento todo dia, porque se ela sobe é porque o modelo barato piorou ou o mix de tráfego mudou, e de todo jeito o seu custo combinado acabou de se mexer.

A taxa de escalonamento é o único número para olhar todo dia. É ela que amarra a sua qualidade à sua conta, e deveria viver em um painel, não aparecer em uma fatura no fim do mês.

Cache, lotes e orçamentos rígidos

O roteamento decide qual modelo. Cache, lotes e orçamentos decidem quão pouco você paga pelas requisições que de fato manda. São as vitórias mais baratas da pilha e a maioria dos times as deixa na mesa.

O cache de prompt paga pelo contexto estável que você manda de novo e de novo, como prompts de sistema, definições de ferramentas e documentos recuperados. A OpenAI aplica um desconto de 50% nos tokens de entrada em cache. A Anthropic cobra leituras de cache a 0,1x da tarifa base de entrada, um corte de 90% na parte repetida. O processamento em lote dobra muitas requisições não urgentes em um único job a uma tarifa menor, o que serve para enriquecimento noturno, avaliações e trabalho de retaguarda que nenhum usuário está esperando.

Os orçamentos são o cinto de segurança. Um teto por cliente e por ambiente com alerta bem antes do limite transforma um abuso por injeção de prompt ou uma tempestade de retries em um limite acionado, e não em uma surpresa de cinco dígitos. Controle de custo que depende de ninguém errar não é controle de custo.

Como as avaliações deixam você descer a curva de custo

O harness de avaliação não é overhead. É o ativo que torna cada corte de custo seguro e transforma a independência de fornecedor em uma posição que o concorrente não copia.

Cada requisição real que o seu produto atende é um exemplo rotulado do que é bom no seu domínio. Capture as saídas que os clientes aceitam, corrigem ou rejeitam e você monta um conjunto de avaliações específico do domínio que nenhum rival tem. Esse conjunto faz dois trabalhos ao mesmo tempo. Ele deixa você encaixar cada modelo mais barato no dia em que ele passa na sua barra, então você desce a curva de custo sem regressão de qualidade. E ele vira dado proprietário, que é o flywheel copilot, dado, capital: construir um copilot de IA para gerar dado proprietário e depois usar esse dado para levantar e alocar capital. As avaliações específicas de domínio como moat de IA são onde o uso se acumula em defensabilidade.

Como a qualidade é protegida por avaliações e não por uma aposta em um fornecedor, a venture fica livre para rotear para quem estiver mais barato por unidade de qualidade verificada neste trimestre. O moat é o conjunto de avaliações e o fluxo de trabalho, detalhado no flywheel copilot, dado, capital, nunca o modelo. O modelo é a commodity que segue ficando mais barata.

Modos de falha: otimizar custo antes de ter qualidade

O erro mais caro é otimizar custo antes de ter ganhado o direito de fazer isso. Um time que roteia tudo para o modelo mais barato para proteger uma planilha entrega um produto pior, perde os clientes cujo uso teria montado o conjunto de avaliações e o moat de dado, e termina sem margem e sem moat. É aqui que os times erram.

  • Custo antes de qualidade. Cortar para a camada barata antes das suas avaliações pegarem a regressão. Você não vê a perda de qualidade. Seu churn vê.
  • Sem trava de avaliação. Trocar de modelo no instinto. Toda troca precisa passar no harness ou você está voando às cegas.
  • Taxa de escalonamento sem acompanhamento. Ignore a fração de tráfego que bate na camada cara e uma deriva silenciosa dobra a sua conta ou corta a sua qualidade pela metade sem nenhum alarme.
  • Aprisionamento de fornecedor disfarçado de simplicidade. Fixar um modelo para fugir do trabalho de roteamento parece enxuto até o fornecedor subir o preço ou ficar para trás e você não ter conjunto de avaliações para migrar com segurança.
  • Medir a coisa errada. Otimizar o custo médio por token em vez do custo por requisição satisfeita. Uma resposta barata que o cliente rejeita é o token mais caro que você vai comprar.

Como a Avante mantém a margem do lado da venture

A infraestrutura de IA já está barata o bastante para deploy sem uma Série A, e a demanda já chegou. No Brasil, a fatia de empresas industriais com 100 ou mais funcionários usando IA subiu de 16,9% em 2022 para 41,9% em 2024, segundo a PINTEC do IBGE, e a Bain achou que 25% das empresas brasileiras tinham um caso de uso de IA em produção, mais do que o dobro do ano anterior. A venture que atende essa demanda com uma base de custo de camada barata guarda a margem. A que paga preço de fronteira em cada requisição devolve a margem.

A Avante Ventures é um venture studio que constrói empresas AI-native no Brasil e na América Latina, e a disciplina de roteamento é o que torna lançar 3-4 ventures por ano com margens enxutas aritmeticamente possível. Resolver o encanamento uma vez, incluindo a pilha de roteamento e avaliação, direciona cerca de $300K-$500K de capital efetivo por venture para produto e tração em vez de overhead. Essa eficiência de capital é por que ventures de studio chegam à primeira receita 6-9 meses à frente de um time independente com financiamento comparável, e por que o modelo de studio marca perto de 50% de IRR contra cerca de 19% do venture capital tradicional, segundo a GSSN.

Então ganhe a qualidade primeiro com o modelo que funciona, instrumente cada requisição, e só então corte custo sob a proteção das avaliações. Um time que faz nessa ordem desce a curva de custo de graça. Um time que faz ao contrário paga duas vezes, uma pelo churn e outra pelo moat que nunca construiu. Veja por que a Avante constrói assim.

Perguntas frequentes

Qual é a forma mais rápida de reduzir o custo de inferência de LLM sem perder qualidade?
Roteie barato por padrão e escale para um modelo caro só quando a tarefa exigir. Uma cascata de modelos que resolve 70% do tráfego na camada barata pode trazer o custo combinado para cerca de metade de rodar o modelo de fronteira em tudo, e resultados publicados de roteamento mostram economia de 45% a 85% mantendo cerca de 95% da qualidade. Trave cada troca de modelo em um harness de avaliação para que um corte de custo nunca entregue um produto pior sem querer.
Por que o custo de inferência de LLM é uma decisão de produto e não de finanças?
Porque a arquitetura que você monta no lançamento decide se a queda no preço dos tokens vira a sua margem ou passa por você. Segundo a a16z, o custo de uma capacidade fixa caiu cerca de 10x por ano, então um produto que já roda a maioria das requisições na camada barata captura essa deflação de forma automática. Um produto que fixou o modelo de fronteira em tudo segue pagando o preço de ontem.
Como o roteamento de modelos funciona na prática?
Um roteador manda cada requisição para o modelo capaz mais barato, verifica a saída, e escala só o que falha. As estratégias vão de regras estáticas que leem uma etiqueta de tarefa, a seleção por custo, a roteamento semântico que classifica a intenção, até uma cascata completa. A taxa de escalonamento, a fração de tráfego que chega à camada cara, é o número que governa custo e qualidade e deve ser monitorada todo dia.
Cortar o custo de inferência de LLM significa cortar qualidade?
Só se você otimizar custo antes de ter um harness de avaliação para proteger a qualidade. As avaliações deixam você rotear para o modelo mais barato que ainda passa na sua barra e encaixar cada modelo mais barato no dia em que ele qualifica. O modo de falha real é rotear tudo para o modelo mais barato para proteger uma planilha, o que entrega um produto pior e perde os clientes cujo uso teria montado o seu moat de dado.
Quanto o cache de prompt e o processamento em lote economizam?
O cache de prompt dá desconto nas partes estáveis e repetidas de um prompt. A OpenAI aplica 50% de desconto nos tokens de entrada em cache e a Anthropic cobra leituras de cache a 0,1x da tarifa base, um corte de 90% na parte em cache. O processamento em lote agrupa trabalho não urgente em um único job a uma tarifa menor, o que serve para enriquecimento noturno e rodadas de avaliação que nenhum usuário está esperando.
— Time Fundador da Avante
São Paulo + Vale do Silício · escrito de dentro do studio

Quer mais? Receba um ensaio por semana sobre venture building, negócios AI-native e a oportunidade Brasil.

Ver Biblioteca completa →