Voltar para Biblioteca
Playbook·9 min·Jun 2026

Como Construir uma Empresa AI-Native Sem Levantar uma Série A

A inferência de IA cai 10x ao ano e dá para lançar enxuto. O moat não é o modelo. O que AI-native significa de verdade e onde mora a defensibilidade.

Uma empresa AI-native é aquela em que tirar o modelo quebra o produto. O modelo fica no loop central, lê a entrada, decide a ação e produz aquilo que o cliente paga para ter. Isso é uma afirmação precisa, e é a única versão de AI-native que vale a pena construir. Porque o custo de rodar esse modelo está caindo 10x ao ano.

Essa queda muda a pergunta do fundraising. O maior item de custo que uma empresa de software levantava uma Série A para bancar, o compute do modelo, fica mais barato sozinho mais rápido do que qualquer rodada conseguiria ajudar. O difícil deixou de ser pagar a inferência. Passou a ser ter algo que a inferência toca. Na Avante Ventures construímos empresas AI-native no Brasil e na América Latina exatamente sobre essa aposta. O modelo é commodity. O loop em volta dele não é.

Este texto define AI-native em termos que um cético aceitaria, mostra a curva de custo que mudou a conta e localiza onde mora a defensibilidade quando o próprio modelo já é barato para todo mundo.

O que AI-native significa de verdade

AI-native é um teste, não um rótulo. Uma empresa é AI-native quando um modelo está dentro do loop central do produto e o produto não funcionaria sem ele. Compare com a IA parafusada por cima, onde uma caixa de chat ou um botão de resumir fica do lado de um produto que já funcionava bem antes do modelo chegar e continuaria funcionando se você arrancasse o modelo fora.

O teste do cético é a remoção. Tire o modelo. Se o produto ainda faz o trabalho principal dele, o modelo era um recurso. Se o produto para de funcionar, a empresa é AI-native. Um copilot de dívida judicial que lê milhares de petições e aponta quais precatórios são de fato recuperáveis é AI-native, porque nenhum time humano precifica esse volume na mão. Um CRM que ganhou um botão de resumo não é.

Essa distinção se paga por causa da curva de custo logo abaixo. A inferência barata deixou a versão parafusada disponível para todo mundo. O parafuso não é defensável. O loop é.

  • O modelo está no loop de decisão, não na peça de marketing. Ele produz o resultado que o cliente compra.
  • Cada interação do cliente gera sinal proprietário que melhora o próximo resultado. Esse é o loop que compõe.
  • A estrutura de custo assume inferência, não headcount. A economia unitária quebra se você coloca gente para fazer o trabalho.

A curva de custo mudou a conta

Para um modelo de desempenho equivalente, o custo de inferência cai 10x ao ano. A Andreessen Horowitz batizou isso de LLMflation e colocou um número: o custo de inferência de LLM caiu por um fator de 1.000 em 3 anos, segundo a [a16z](https://a16z.com/llmflation-llm-inference-cost/).

Os números concretos são duros. Em novembro de 2021, atingir um MMLU de 42 com o GPT-3 custava cerca de $60 por milhão de tokens. No fim de 2024, um modelo aberto, o Llama 3.2 3B, alcançava o mesmo score por cerca de $0,06 por milhão de tokens, segundo a [a16z](https://a16z.com/llmflation-llm-inference-cost/). No nível de capacidade do GPT-4, os preços caíram cerca de 62x em menos de dois anos.

Medição independente confirma a tendência e mostra ela acelerando. A Epoch AI achou que o preço para igualar o desempenho do GPT-4 em questões de ciência de nível PhD caiu 40x ao ano, com taxas de queda entre 9x e 900x por ano e mediana de 50x, segundo a [Epoch AI](https://epoch.ai/data-insights/llm-inference-price-trends). Olhando só os dados depois de janeiro de 2024, essa mediana subiu de 50x para 200x ao ano. As quedas não estão desacelerando. Estão acelerando.

A leitura estratégica é direta. A infraestrutura de IA já está barata o suficiente para implantar sem uma Série A. Uma capacidade que precisava de $5M para montar e servir em 2022 dá para servir em 2026 por uma fração disso. E o capital economizado vai para produto e tração em vez de compute.

Uma ressalva honesta. O custo de servir uma capacidade fixa cai, mas o gasto total muitas vezes sobe conforme o uso escala e os modelos de fronteira seguem caros. O o1 da OpenAI lançou em torno dos mesmos $60 por milhão de tokens de saída que o GPT-3 custava no lançamento, segundo a [a16z](https://a16z.com/llmflation-llm-inference-cost/). Barato é o piso, não o teto. A jogada enxuta é construir sobre a camada commodity que barateia rápido, não sobre a fronteira.

O custo de inferência de LLM cai cerca de 10x ao ano, queda de 1.000x em três anos. A mesma capacidade MMLU 42 que custava $60 por milhão de tokens com o GPT-3 em novembro de 2021 custava cerca de $0,06 no fim de 2024.

— a16z, Welcome to LLMflation

Onde mora o moat

Modelos viram commodity. É o que a curva de custo força. Quando qualquer concorrente chama o mesmo modelo pelo mesmo preço em queda, o modelo não pode ser o moat. A defensibilidade migra para o que o modelo toca: dado proprietário, efeitos de rede de dados e lock-in de workflow. À medida que os modelos viram commodity, a vantagem durável vem da informação proprietária e dos workflows embutidos, não do modelo em si, segundo a [McKinsey QuantumBlack](https://www.mckinsey.com/capabilities/quantumblack/our-insights).

Vale nomear um debate em aberto. Alguns investidores argumentam que dado proprietário sozinho não é moat e que a velocidade de distribuição importa mais, uma tensão capturada pela [Insignia Ventures](https://review.insignia.vc/2025/03/10/ai-moat/). A resposta do studio é que você não escolhe um dos dois. Você junta o motor de dados a um operador que já tem a distribuição. Mais sobre esse mecanismo logo abaixo, em [/why-avante](/why-avante).

Dado proprietário e efeitos de rede

Dado proprietário só é moat quando ele compõe. Uma base de dados estática é uma vantagem única que um concorrente bem capitalizado compra ou raspa. A versão durável é o efeito de rede de dados: cada interação gera sinal proprietário que melhora o produto para o próximo usuário. O flywheel gira quando o produto está em produção, fazendo trabalho real que o incumbente não consegue observar.

É por isso que a cunha importa mais que o modelo. Um copilot rodando dentro de um workflow brasileiro de dívida judicial enxerga petições, desfechos e taxas de recuperação que nenhum modelo geral e nenhum concorrente acessam. Esse dado não é comprado. É conquistado por estar dentro do workflow. Pense no moat como um loop que você mantém, não um armazém que você possui.

Process power e lock-in de workflow

Process power é o segundo moat durável, e o que um operador de domínio constrói mais rápido que um generalista. Quando um produto AI-native vira o sistema de registro de como um time realmente faz o trabalho, o custo de troca é o ritmo operacional inteiro do time, não um export de dados. O 7 Powers de Hamilton Helmer dá nome a isso: uma vantagem embutida no jeito como a organização trabalha, que o concorrente não copia só olhando de fora.

O lock-in de workflow compõe com o moat de dados. Quanto mais fundo o produto fica no workflow diário, mais sinal proprietário ele captura, melhor fica o resultado, mais difícil é arrancar. Esse é o mecanismo por trás do flywheel copilot, dado, capital. Construa um copilot de IA para gerar dado proprietário, depois use esse dado para levantar e implantar capital. O copilot conquista o workflow. O workflow gera o dado. O dado financia o próximo estágio.

Se o seu produto pode ser clonado por um concorrente que parafusa a mesma API, você tem um recurso, não um moat. Defensibilidade é o sinal proprietário que você captura por viver dentro de um workflow que ninguém mais enxerga.

As falhas a evitar

Inferência barata vira armadilha com a mesma facilidade que vira vantagem. Três falhas pegam ventures AI-native enxutos, e cada uma tem uma correção específica.

  • Risco de wrapper. Uma camada fina sobre um modelo público, sem dado proprietário e sem profundidade de workflow, não tem moat. Quando o provedor lança o mesmo recurso nativamente, o wrapper fica sem nada. A correção é conquistar um workflow que gera dado que o dono do modelo não enxerga.
  • Risco de dependência de modelo. Apostar a empresa no modelo de fronteira de um único provedor expõe ela a choques de preço, política e disponibilidade. A curva de custo ajuda aqui. Como modelos capazes da camada commodity custam cerca de 10x menos a cada ano segundo a a16z, dá para projetar para portabilidade de modelo.
  • Risco de dado sem distribuição. Dado proprietário sem caminho até o usuário é projeto de pesquisa. Esse é o contra-argumento vivo no debate de moat. Um studio responde juntando o motor de dados a um operador de domínio que já tem a distribuição.

Como a Avante constrói AI-native

A Avante Ventures é um venture studio que constrói empresas AI-native no Brasil e na América Latina. O studio não aposta num modelo. Ele constrói o loop. Cada venture nasce AI-native no dia um, com um modelo no loop central do produto e um copilot posicionado para capturar dado proprietário dentro de um workflow real.

A vantagem estrutural é o próprio modelo de studio. Venture studios produzem cerca de ~50% IRR contra um padrão de mercado de ~19% para o VC tradicional, segundo a Global Startup Studio Network, cerca de 2,5x o IRR do VC tradicional em horizontes realistas. Esse ~50% é o benchmark do modelo de studio, não um retorno já realizado. O modelo operacional é feito para eficiência de capital, que é exatamente o que a curva de custo recompensa. O studio lança 3-4 ventures por ano através de um sistema de seis estágios: Research, Partner, Build, Traction, Revenue, Compound. O capital implantado é de $500K-1.5M por venture no pré-seed, com o studio retendo economia de co-founder.

Aqui está a parte que espelha o LLMflation. Resolver o encanamento da empresa uma vez roteia cerca de $300K-500K de capital efetivo por venture para produto e tração em vez de overhead. Faça a coisa cara uma vez, de forma central, e deixe cada venture lançar enxuto. A mesma lógica que derruba o custo de inferência 10x ao ano, aplicada à própria empresa.

O mercado sustenta o foco. Startups brasileiras levantaram $2,1B em 2025, alta de 10,5% sobre os $1,9B de 2024, segundo o [Crunchbase](https://news.crunchbase.com/venture/vcs-bullish-latam-startup-funding-rebounds-2025/). Serviços respondem por cerca de 70% do PIB brasileiro, com baixa penetração de software. A vantagem estrutural são operadores de domínio com mais de 10 anos de calo de mercado brasileiro, somados a um playbook de Vale do Silício e capital de primeiro cheque, montados no dia um. Você pode ler a tese completa em [/why-avante](/why-avante). A inferência barata é o vento a favor. Ela nunca foi a empresa.

— Time Fundador da Avante
São Paulo + San Francisco · escrito de dentro do studio

Quer mais? Receba um ensaio por mês sobre venture building, negócios AI-native e a oportunidade Brasil.

Ver Biblioteca completa →