Playbook·10 min·Jun 2026

Evals de Domínio: o Moat que Sobrevive à Troca de Modelos

Modelos viram commodity. O julgamento codificado do que é correto não. Por que uma suíte de evals de domínio é um moat AI-native subestimado.

Os evals de domínio são o moat de IA mais subestimado que uma empresa AI-native pode construir. Modelos viram commodity e prompts são copiados em um trimestre. O julgamento codificado do que significa correto dentro de um fluxo regulado e de alto risco não vira. Esse julgamento, capturado como uma suíte de testes com casos reais, casos de borda e resultados rotulados por especialistas, é caro de montar, composta com o uso e é o ativo que o concorrente não consegue copiar com um print.

Ele também compra uma segunda coisa que quase ninguém precifica. A liberdade de trocar o modelo base conforme o preço de inferência despenca, sem apostar na qualidade. Na Avante Ventures, o venture studio que tocamos construindo empresas AI-native no Brasil e na América Latina, a suíte de evals é onde o uso acumulado de um copiloto vira uma vantagem de qualidade que você prova, e não apenas afirma.

Por que evals são moat, não tarefa chata

A maioria dos times trata avaliação como higiene de QA. É por isso que perdem. Um produto AI-native faz uma afirmação sobre o mundo toda vez que roda. Um copiloto que pontua recuperação de dívida judicial, precifica um risco de seguro ou ranqueia um imóvel de leilão pode estar certo ou errado, e errado custa caro. O mecanismo que decide certo de errado é a suíte de evals. Isso a torna o produto, não a papelada em volta dele.

A conversa padrão sobre moat para na proprietary data, e é aí que ela erra. Dado é matéria-prima. Um conjunto de evals é a definição codificada de correção aplicada a essa matéria. Dois negócios podem ter dados quase idênticos e entregar qualidade oposta, porque um roda uma suíte rigorosa, adversarial e rotulada por operador e o outro está adivinhando em produção. A suíte de evals é a camada de defensabilidade de evals de LLM que transforma uma pilha de casos em uma vantagem mensurável.

Se tirar o modelo quebra o seu produto em vez de degradar uma funcionalidade, você é AI-native. E a primeira pergunta que vem depois não é quão rápido você entrega. É como você sabe que a saída está correta.

Como evals te tornam independente de modelo

Uma startup de IA independente de modelo é aquela que troca o motor numa terça e prova que a qualidade se manteve na quarta. A suíte de evals é o que torna isso possível. Rode o novo modelo contra a suíte. Adote apenas se as notas se mantiverem ou melhorarem. O conjunto de evals proprietário é o que converte uma curva de custo volátil em poder de preço em vez de exposição.

Isso importa porque preço e qualidade do modelo base se reorganizam a cada poucos meses. Um negócio que fixa sua qualidade em um único provedor está apostando a margem no roadmap daquele provedor. Um negócio com uma suíte de evals de domínio trata todo modelo novo como candidato, não como compromisso. O custo de ser independente de modelo é quase zero quando você consegue provar qualidade em cada troca. É enorme quando você não consegue, porque então a troca vira um salto de fé e você não vai dar.

Com suíte própria: troque para um modelo mais barato ou melhor na semana em que ele sai, valide em horas, capture a economia ou o ganho de qualidade.
Sem suíte: fique preso a um provedor por medo, ou troque às cegas e descubra a regressão na frente de um cliente.
O ativo não é o prompt nem o modelo. É a definição codificada e rotulada por operador do que é correto, que todo modelo precisa passar.

Por que a curva de custo torna isso urgente

Os preços de inferência caem rápido e de forma desigual, uma dinâmica que mapeamos para a região em a curva de custo da infraestrutura de IA, e é exatamente por isso que você não deveria ancorar a qualidade em um único modelo. A Epoch AI mostrou que o preço para atingir uma capacidade fixa caiu entre 9x e 900x por ano conforme o benchmark, com mediana perto de 50x. Igualar o GPT-4 em questões de ciência de nível doutorado ficou cerca de 40x mais barato por ano. As quedas estão acelerando. Medindo de janeiro de 2024 em diante, a mediana salta para cerca de 200x por ano.

A a16z colocou um número único nisso. O custo de inferência em um nível fixo de qualidade caiu de 60 dólares por milhão de tokens em 2021 para cerca de 6 centavos no fim de 2024, uma queda de aproximadamente 1.000x em três anos. Quando o piso se move tão rápido, o único jeito de continuar capturando a economia é estar pronto para trocar. Estar pronto é ter uma suíte de evals. Sem ela, toda queda de preço é um negócio que você vê um concorrente fechar. Essa é a vantagem do conjunto de evals proprietário, que se compõe em silêncio enquanto a curva de custo faz o trabalho barulhento.

O custo de inferência de LLM em um nível fixo de qualidade caiu de 60 dólares por milhão de tokens em 2021 para cerca de 6 centavos no fim de 2024. Cerca de 1.000x em três anos.

— a16z, Welcome to LLMflation, 2024

Onde os evals ficam entre os moats

O moat durável de um negócio de IA vertical é uma pilha, não um único modelo. A Insignia Ventures foi direta. A barreira para construir nunca foi tão baixa, enquanto defender o que você construiu ficou exponencialmente mais difícil. Eles documentaram startups de edição de imagem com IA que passaram de 5 milhões de dólares em ARR e depois viram seu valor evaporar da noite para o dia quando um incumbente lançou a mesma funcionalidade. Capacidade genérica é commodity. As camadas defensáveis ficam embaixo dela.

Proprietary data: os casos, resultados e rótulos que o concorrente não compra. Necessário, o mais comentado, mas não suficiente sozinho.
Evals de domínio: o julgamento codificado do que é correto, rodado contra cada modelo e cada release. A camada que transforma uso acumulado em vantagem de qualidade comprovável.
Workflow lock-in: o produto vira onde o trabalho é feito e o sistema de registro, então o custo de troca sobe.

A armadilha silenciosa dos evals ruins

Um conjunto de evals ruim é pior do que nenhum, porque te dá confiança apontada na direção errada. A Anthropic, um laboratório cujo negócio inteiro é medir modelos, escreveu que uma verdadeira ciência de evals ainda é subdesenvolvida e que uma vantagem aparente pode ser sorte do sorteio, e não capacidade real. Se eles chamam a ciência de subdesenvolvida, um negócio vertical deveria assumir que seu primeiro conjunto de evals está errado de formas que ainda não consegue ver.

Eis o modo de falha em termos simples. Um conjunto de evals codifica uma definição de correto. Se essa definição está sutilmente errada, você otimiza forte em direção ao alvo errado e se sente bem fazendo isso. Uma valuação de dívida judicial que parece certa para um engenheiro pode estar juridicamente errada de um jeito que só um especialista em precatórios pega. Um score de seguro pode passar num teste genérico de acurácia e ainda assim precificar mal a cauda que quebra a carteira. Construir um bom conjunto de evals exige o recurso exato que falta à maioria das startups de IA. Operadores de domínio profundos que sabem rotular casos de borda adversariais corretamente. Um time sem esse insumo não constrói um instrumento fraco. Constrói um instrumento preciso mirado no alvo errado, e entrega com convicção.

Uma verdadeira ciência de evals ainda é subdesenvolvida, e uma vantagem aparente de modelo pode ser sorte do sorteio em vez de capacidade real. O alerta vem de um laboratório de fronteira, não de um cético.

— Pesquisa da Anthropic sobre avaliação de modelos, 2024

Como a Avante constrói evals com operadores

A tese de eval como moat é exatamente por que o modelo de studio cabe neste momento. Um conjunto de evals correto exige insumo de domínio profundo, e esse insumo é o que falta à maioria das startups de IA. A Avante Ventures combina um playbook do Vale do Silício e capital de primeiro cheque com operadores que carregam mais de 10 anos de calo do mercado brasileiro, montados no dia um. O operating partner que conhece o domínio está na construção desde a etapa Partner, que é onde o design de evals tem que começar, não depois do lançamento.

A estrutura é deliberada. A Avante lança de 3 a 4 ventures por ano por meio de um sistema de seis etapas. Research, Partner, Build, Traction, Revenue, Compound. Cada venture recebe entre 500 mil e 1,5 milhão de dólares no pré-seed enquanto o studio retém economia de co-founder. O modelo tem histórico por trás. Segundo a Global Startup Studio Network, venture studios mostram cerca de ~50% de IRR contra ~19% do venture capital tradicional, cerca de 2,5x em horizontes realistas. Esse número é o benchmark do modelo de studio, não uma afirmação sobre o retorno realizado de um fundo específico.

O mercado que isso mira é concreto. Os serviços respondem por cerca de 70% do PIB brasileiro, e segundo dados consolidados do IBGE movimentam cerca de 80% da geração de emprego formal. São fluxos regulados e pesados em julgamento, onde correto é definido pelo domínio e é adversarial. Exatamente onde uma suíte de evals de domínio é mais difícil de construir e mais defensável depois de pronta. O portfólio roda um padrão nesses domínios. Construir um copiloto para gerar proprietary data, codificar a correção do domínio como evals para que a vantagem de qualidade seja comprovável, e então usar o dado e a credibilidade para captar e alocar capital. O flywheel copilot, dado, capital aparece na valuação de ativos judiciais na Alphajuri, na precificação de risco de seguro na WIR e na pontuação de imóveis de leilão na BR Auction Intel. A infraestrutura de IA já está barata o bastante para implantar sem uma Série A. O gargalo mudou. Não é mais computação. É o julgamento codificado do que significa correto, e os operadores que sabem defini-lo. É esse o argumento que detalhamos em por que um studio constrói assim.

— Time Fundador da Avante

São Paulo + Vale do Silício · escrito de dentro do studio

Quer mais? Receba um ensaio por semana sobre venture building, negócios AI-native e a oportunidade Brasil.

Avante Intelligence · semanal · sem spam. Ou ver a Biblioteca