Voltar para Biblioteca
Market Analysis·10 min·Jun 2026

A Curva de Custo da IA Deixa Ventures da América Latina Pularem a Série A

O custo de inferência está despencando. Isso desloca capital de infraestrutura para produto e neutraliza, na hora certa, a desvantagem histórica de capital da América Latina.

A curva de custo de inferência de IA fez algo silencioso e enorme. O preço para rodar um modelo de uma dada capacidade cai cerca de uma ordem de grandeza por ano, o que significa que o build que antes exigia uma Série A agora cabe dentro de um cheque pré-seed. Para o Brasil, isso não é nota de rodapé técnica. É o momento em que uma desvantagem histórica de profundidade de capital deixa de pesar.

O AI Index 2025 de Stanford mostrou que o custo de inferência para um sistema no nível do GPT-3.5 caiu mais de 280 vezes entre novembro de 2022 e outubro de 2024. A Andreessen Horowitz coloca a mesma tendência em cerca de 10x ao ano. Quando o custo de levantar um produto de IA desaba, o insumo escasso deixa de ser capacidade de engenharia. Passa a ser acesso a um domínio e distribuição.

A Avante Ventures constrói exatamente em cima dessa virada. A curva de custo é o vento a favor. Profundidade de operador e dado proprietário são a estratégia.

A curva de custo, com números datados

A queda do custo por token de IA é hoje a tendência mais bem documentada do setor, e os números são diretos. Para um modelo de desempenho equivalente, o custo de inferência cai cerca de 10x todo ano, segundo a Andreessen Horowitz em novembro de 2024. O exemplo âncora é difícil de ignorar. No nível do GPT-3, o preço foi de 60 dólares por milhão de tokens em novembro de 2021 para cerca de 0,06 dólares em novembro de 2024. Uma queda de 1.000x em três anos.

Stanford sustenta a mesma história de uma cadeira neutra. O [AI Index 2025](https://hai.stanford.edu/ai-index/2025-ai-index-report) relata que o custo de inferência de um sistema no nível do GPT-3.5 caiu mais de 280 vezes entre novembro de 2022 e outubro de 2024. Para um leitor de 2026 esse é o número para liderar, porque é recente e vem da academia, não de um fundo.

A Epoch AI mediu o mesmo colapso com método mais rigoroso. O preço para atingir um nível fixo de capacidade caiu a uma mediana de cerca de 50x ao ano, com faixa de 9x a 900x conforme a tarefa. A aceleração importa mais que a média. A partir de janeiro de 2024, a mediana subiu para cerca de 200x ao ano.

  • a16z (nov 2024): cerca de 10x ao ano, 1.000x em três anos no nível do GPT-3.
  • Stanford HAI AI Index (2025): mais de 280 vezes para inferência no nível do GPT-3.5, de nov 2022 a out 2024.
  • Epoch AI (mar 2025): mediana de 50x ao ano entre benchmarks, acelerando para cerca de 200x ao ano após janeiro de 2024.

O custo de inferência para um sistema no nível do GPT-3.5 caiu mais de 280 vezes entre novembro de 2022 e outubro de 2024.

— Stanford HAI, AI Index Report 2025

Para onde a inferência barata move o dinheiro

Quando inferência, busca vetorial e infraestrutura gerenciada se tornam commodity ao mesmo tempo, o custo fixo de levantar um produto de IA desaba e o custo marginal de testar uma ideia se aproxima de zero. O capital que uma startup de 2021 queimava com um time de plataforma de 20 pessoas para construir retrieval, harnesses de avaliação e infraestrutura de serving virou uma linha de fatura de API gerenciada.

Então o gargalo se desloca. O insumo escasso deixa de ser quantos engenheiros você contrata para escrever encanamento. Passa a ser julgamento de produto, acesso a domínio e chegar à receita antes do dinheiro acabar. A cobertura ao longo de 2025 documenta empresas AI-native alcançando avaliação de unicórnio com [times abaixo de 50 pessoas](https://www.businessinsider.com/ai-startup-unicorns-with-tiny-teams-2025-5), um padrão estruturalmente impossível quando a infraestrutura precisava ser construída antes do produto.

Para um venture studio isso é o jogo inteiro. Se o build é barato, o valor diferenciado não está em escrever o código. Está no acesso a domínio, no dado proprietário e na velocidade até a primeira receita. É o que a Avante entrega no dia um, não no mês nove.

Direcionar US$ 300 mil a 500 mil para produto, não infra

A eficiência de capital de uma startup de IA hoje é decidida por onde vão os primeiros dólares, não por quantos são. Resolver o encanamento da empresa uma única vez direciona cerca de US$ 300 mil a US$ 500 mil de capital efetivo por venture para produto e tração, em vez de overhead. A curva de custo é o que torna esse direcionamento possível. Quando a linha de infraestrutura encolhe até virar conta de API, uma fatia maior do primeiro cheque chega ao cliente.

Em termos de caixa. Um time de IA em estágio seed de 2021 talvez gastasse um terço do primeiro ano levantando infraestrutura que um time de 2026 aluga por chamada. Esse terço recuperado é a diferença entre uma tentativa de product-market fit e duas ou três. A Avante aplica US$ 500 mil a US$ 1,5 milhão por venture no pré-seed, e a curva decide quanto disso chega ao produto.

A eficiência se compõe dentro de um studio. Infraestrutura compartilhada na carteira, somada a uma curva de custo que segue caindo, faz o mesmo dólar comprar mais tentativas de produto a cada ano.

Por que o timing favorece o Brasil

O Brasil é onde a curva de custo e a lacuna de mercado se alinham com mais clareza. Os serviços respondem por cerca de 70% do PIB brasileiro, e essa base segue pouco digitalizada. O setor de serviços cresceu 3,1% em 2024, quarto ano seguido de alta, segundo o [IBGE](https://agenciabrasil.ebc.com.br/economia/noticia/2025-02/setor-de-servicos-cresce-31-em-2024-mostra-ibge). Uma economia grande, em crescimento e com pouco software é exatamente o alvo que um time AI-native consegue endereçar agora sem uma Série A.

O pano de fundo de capital é a outra metade. O funding de venture da América Latina passou por um reset forte depois de 2021 e se recupera de uma base baixa. Em 2024 a região captou cerca de 4,5 bilhões de dólares em 751 deals, alta de 8% no ano, com o Brasil ficando com 44% e o México com 26%, segundo dados da LAVCA. Esse total regional de ano inteiro é um arredondamento perto de uma única grande rodada de IA nos Estados Unidos.

O argumento de timing segue direto. Uma curva de custo mais barata neutraliza exatamente a desvantagem que o capital escasso impunha. Quando o build não exige mais 20 engenheiros e uma Série A para financiá-los, o campo de infraestrutura se nivela, e a vantagem que resta é profundidade de operador de domínio. O Brasil tem isso de sobra.

Leia o timing nos dois sentidos ao mesmo tempo. A curva de custo torna barato construir uma empresa de IA brasileira, e a economia de serviços de 70% do PIB dá a ela um terreno subconstruído para apontar esse capital.

Inferência barata não é moat

Aqui está a parte que um pitch deck pularia. Uma curva de custo em queda está disponível para todos, e é por isso que ela não pode ser sua defesa. Ela baixa a barreira para seus concorrentes no mesmo ritmo em que baixa para você. Qualquer um com cartão de crédito e uma chave de API recebe os mesmos preços. Inferência barata é vento a favor, nunca um moat.

Há uma segunda armadilha nos mesmos dados. A Epoch AI documenta um paradoxo de custo. Os preços por token caem enquanto o gasto total com inferência pode subir, porque modelos de raciocínio queimam muito mais tokens por tarefa. Barato por unidade não é barato no agregado quando o uso escala. Fundadores que planejam pelo preço de manchete de hoje se surpreendem com a fatura de amanhã.

Se custo não é moat, a vantagem durável tem de vir de algum lugar que a curva de custo não toca. Dado proprietário, distribuição e custo de troca. A resposta do studio é o flywheel copilot, dado, capital. Construa um copiloto de IA para gerar dado proprietário, depois use esse dado para levantar e alocar capital. O copiloto é barato por causa da curva de custo. O dado é o moat que a curva de custo não consegue corroer.

Como a Avante usa a curva

A Avante Ventures é um venture studio que constrói empresas AI-native no Brasil e na América Latina. Ela trata a curva de custo como vento estrutural a favor, não como tese. A tese é profundidade de operador combinada com dado proprietário, montadas no dia um.

Na mecânica, a Avante lança 3-4 ventures por ano por um sistema de seis estágios. Research, Partner, Build, Traction, Revenue, Compound. Aplica US$ 500 mil a US$ 1,5 milhão por venture no pré-seed e mantém economia de co-founder. Como a curva de custo direciona cerca de US$ 300 mil a US$ 500 mil de capital efetivo para produto em vez de overhead, um venture de studio lança 6-9 meses à frente de um time independente comparável.

O benchmark por trás do modelo é a razão de o studio existir. A Global Startup Studio Network coloca o IRR de studio em cerca de ~50% contra um ~19% padrão do setor para VC tradicional, cerca de 2,5x ao longo de horizontes realistas. Esse é o benchmark do modelo de studio, não o retorno realizado da própria Avante. Leia a tese completa em [/why-avante](/why-avante) e análises de mercado relacionadas em [/library](/library).

A curva de custo barateou o build para todo mundo de uma vez. O que ela não fez foi entregar a ninguém operadores de domínio com mais de 10 anos de cicatriz no mercado brasileiro. Esse é o insumo que segue escasso, e é o que a Avante monta antes da primeira linha de código.

— Time Fundador da Avante
São Paulo + San Francisco · escrito de dentro do studio

Quer mais? Receba um ensaio por mês sobre venture building, negócios AI-native e a oportunidade Brasil.

Ver Biblioteca completa →