O Stack de IA Enxuto que uma Venture de 2 a 3 Pessoas Roda
O stack de IA enxuto que uma venture de 2 a 3 pessoas roda de fato, camada por camada, com uma regra de construir ou comprar para cada uma.
O stack de IA enxuto que uma venture de 2 a 3 pessoas roda aluga quase tudo e possui uma coisa só. Alugue os modelos base, o armazenamento vetorial, a hospedagem e a observabilidade. Construa os dados, os evals e a lógica de fluxo de trabalho vertical, porque essas são as únicas camadas que um concorrente não compra pronto na prateleira. Essa regra sozinha carrega o playbook inteiro. Compre a commodity, possua o moat, espere no que é especulativo.
Isto é uma decisão de construir ou comprar, não uma resenha de ferramentas. Ela se resolve com clareza em 2026 por um motivo. O custo de inferência despencou, então inteligência virou um utilitário medido que você aluga por token, não um projeto de capital que você financia. A Avante Ventures constrói cada empresa assim de propósito, e é por isso que três pessoas colocam um produto de IA de verdade no ar sem uma Série A.
Construir ou comprar: a única pergunta de stack que importa cedo
Um time de 2 a 3 pessoas tem um único recurso escasso, e não é dinheiro. É a atenção do engenheiro. Cada camada que o time decide construir é atenção tirada da única camada que se torna defensável. Então a pergunta nunca é construir ou comprar no abstrato. É quais camadas específicas são commodities para alugar e qual camada única é o moat para possuir.
A regra é direta de propósito. Compre a commodity, possua o moat, espere no que é especulativo. Modelos base, armazenamento vetorial, hospedagem, filas e observabilidade são commodities que fornecedores rodam melhor e mais barato do que qualquer time de três pessoas vai rodar. O conjunto de dados proprietário, os evals de domínio e a lógica de fluxo vertical são o moat. Fine-tuning, um modelo self-hosted e um framework de orquestração próprio são especulativos até um equivalente alugado quebrar de forma visível sob a sua carga.
Existe um teste rápido para qualquer camada que você sinta vontade de construir. Se ela custaria o mesmo para rodar com dez clientes ou dez mil, e um fornecedor já vende isso como serviço medido, construí-la é a ferramenta errada. Possuir só se paga na camada que fica mais valiosa quanto mais os seus clientes específicos a usam.
- Compre a commodity. Modelos base por API, Postgres gerenciado para recuperação, hospedagem, filas, observabilidade. Fornecedores de verdade, preços em queda, nenhuma vantagem em rodar por conta própria.
- Possua o moat. Os dados proprietários que o seu fluxo de trabalho gera, o conjunto de evals de domínio e a lógica vertical que codifica como o seu mercado de fato funciona.
- Espere no especulativo. Fine-tuning, subir um modelo próprio, um framework sob medida. Esperar aqui é uma decisão, não indecisão.
O custo de inferência de IA para um nível fixo de capacidade caiu de cerca de US$ 60 por milhão de tokens em 2021 para cerca de US$ 0,06 em 2024, um fator de aproximadamente 1.000 em três anos, e cai cerca de 10x por ano para um modelo de desempenho equivalente.
— a16z, LLMflation, 2024
O stack de IA enxuto, camada por camada
Aqui está o stack que um time enxuto monta esta semana, percorrido de baixo para cima. Aplique a mesma regra de comprar, construir ou esperar em cada camada. No fim, o único código que o time de fato possui é o código que se acumula.
A disciplina é manter cada camada de commodity trocável e cada camada própria profunda. Alugue fino, construa grosso.
- Camada de modelo. Alugue modelos de fronteira e modelos pequenos por API. Roteie as chamadas fáceis para um modelo pequeno e reserve um modelo de fronteira para as difíceis. Esconda o fornecedor atrás de uma única interface interna para que trocar seja mudança de configuração.
- Camada de recuperação e dados. Comece com Postgres gerenciado e a extensão pgvector, não com um banco vetorial dedicado. Isso mantém os seus dados relacionais e os seus embeddings em um sistema que você já opera. Adicione um armazenamento especializado só quando um limite medido forçar.
- Camada de aplicação e hospedagem. Alugue hospedagem serverless e uma fila gerenciada. Entregue o fluxo de trabalho vertical, a parte que codifica como o seu domínio de fato funciona, como código seu.
- Camada de observabilidade e evals. Alugue o log e o tracing. Construa os evals você mesmo, porque um conjunto de evals de domínio é um ativo proprietário, não uma commodity.
- Camada de feedback. Instrumente o produto para que cada correção de especialista seja capturada como exemplo rotulado. Essa captura é o que depois transforma uso em um conjunto de dados financiável.
Onde comprar, onde construir, onde esperar
Dito de forma direta, para um fundador aplicar em uma tarde. Três colunas, e a maior parte do stack cai na primeira.
- Compre agora. Modelos base por API. Postgres gerenciado com pgvector. Hospedagem serverless. Filas gerenciadas. Observabilidade, tracing e autenticação. Commodities com fornecedores de verdade e preços que caem a cada trimestre.
- Construa agora. O conjunto de dados proprietário e o seu pipeline de captura. O conjunto de evals de domínio. A lógica de fluxo vertical que codifica mais de 10 anos de calo de mercado do operador. Esta coluna é o moat.
- Espere. Fine-tuning, um modelo self-hosted, um framework de orquestração sob medida, um motor vetorial próprio. Cada um se justifica só quando um equivalente alugado quebra de forma mensurável. Até lá, esperar mantém o caixa no moat.
O único movimento que importa. Mantenha uma lista escrita do que você aluga e do que você possui, e defenda a fronteira. Todo trimestre algo do lado do aluguel vai tentar você a reconstruir. Resista, a menos que um número, e não um palpite, diga que o fornecedor quebrou.
Mantendo o custo de inferência fora do caminho crítico
O custo de inferência é um problema resolvido para um time enxuto, e tratá-lo como crise é um modo de falha em si. Preços de token em queda são a razão de uma venture de 2 a 3 pessoas colocar um produto de IA de verdade no ar sem uma Série A. O mercado já corta esse custo em uma ordem de grandeza por ano, então não gaste meses de engenharia perseguindo-o.
A Epoch AI, medindo o preço para atingir um patamar fixo, encontra quedas entre 9x e 900x por ano dependendo da tarefa, com mediana perto de 50x, e o preço para igualar o desempenho de nível GPT-4 em questões científicas de nível de doutorado caiu cerca de 40x por ano. Construir a sua própria inferência para economizar é construir um ativo que se deprecia.
Você captura a economia sem um projeto de fine-tuning com três movimentos simples.
- Roteie por dificuldade. Um modelo barato para os 80 por cento de chamadas fáceis, um modelo de fronteira para os 20 por cento difíceis.
- Faça cache com agressividade. Deduplique prompts repetidos e reaproveite o contexto recuperado para parar de pagar duas vezes pela mesma resposta.
- Mantenha o fornecedor trocável. Quando um modelo mais barato passar nos seus evals, trocar deve ser mudança de configuração, não reescrita.
O preço para atingir um patamar fixo de desempenho caiu entre 9x e 900x por ano conforme a tarefa, com mediana em torno de 50x por ano. O desempenho de nível GPT-4 em questões científicas de doutorado ficou cerca de 40x mais barato a cada ano.
— Epoch AI, 2025
A única camada que vale possuir: seus dados e avaliações
O moat nunca é o modelo, e nunca é a infraestrutura. Todo concorrente chama a mesma API e aluga o mesmo Postgres gerenciado, então camadas alugadas não podem ser fonte de vantagem. O ativo durável é o dado proprietário que o seu fluxo de trabalho gera e os evals de domínio que provam que o seu sistema está ficando melhor no trabalho específico.
Este é o flywheel copilot, dado, capital enunciado como decisão de stack. Construa um copilot para gerar dados proprietários e depois use esse dado para captar e alocar capital. Cada correção de especialista capturada é um exemplo rotulado que um concorrente não pode comprar, porque nasce dentro de um fluxo de trabalho que o concorrente não roda. Ao longo dos trimestres, o stack alugado fica parado e a camada própria dispara na frente.
Possuir os evals importa mais do que parece. Sem um conjunto de evals de domínio, um time nem consegue dizer se um modelo mais barato é bom o bastante para migrar, então paga caro pelo modelo de fronteira por medo. Os evals específicos de domínio são ao mesmo tempo o moat e o instrumento que deixa você surfar a curva de preço em queda com segurança. Construa os testes que só o seu dado passa.
Modos de falha: infraestrutura prematura
O modo de falha honesto é a infraestrutura prematura. Um time minúsculo reconstrói um banco vetorial, um gateway de modelos ou uma camada de orquestração que um fornecedor rodaria por uma fração do custo, e queima o caixa em encanamento em vez da única camada que vira o moat.
Os números são cruéis com o instinto de fazer em casa. Para uma carga modesta de um milhão de vetores, um pgvector self-hosted e confiável custa por volta de US$ 385 a US$ 915 por mês, e a linha dominante não é computação. É hora de engenheiro para setup, ajuste de índice, backups, failover e plantão, muitas vezes US$ 320 a US$ 720 desse total, contra cerca de US$ 99 por mês por um equivalente gerenciado. Trabalho de banco de dados é invisível quando dá certo e catastrófico quando falha, então a variância, não o mês médio, é o que um time de três pessoas não pode bancar.
- Infraestrutura prematura. Construir um motor vetorial, um gateway de modelos ou um framework de orquestração antes de um alugado quebrar de forma mensurável.
- Fine-tuning cedo demais. Gastar semanas para economizar tokens quando tokens caem 10x por ano e prompt com recuperação já passaria na régua.
- Possuir a camada errada. Investir no encanamento de commodity e tratar os dados proprietários e os evals como algo secundário.
- Lock-in de fornecedor por descuido. Alugar está certo, mas amarrar um fornecedor tão fundo que uma opção 40x mais barata não pode ser adotada sem reescrever.
- Sem conjunto de evals. Sem evals de domínio você não surfa a curva de preço em queda, então ou paga caro pelo modelo de fronteira ou entrega regressões.
Um setup vetorial self-hosted e confiável para uma carga de um milhão de vetores custa cerca de US$ 385 a US$ 915 por mês, dominado por US$ 320 a US$ 720 de horas de engenheiro, contra cerca de US$ 99 por mês por um equivalente gerenciado.
— Rivestack, custo total de propriedade do pgvector
Como a Avante resolve o encanamento uma vez para várias ventures
A Avante Ventures trata o build stack como uma decisão da etapa Build com retorno na etapa Compound. O sistema de seis etapas roda Research, Partner, Build, Traction, Revenue, Compound, e o studio toma a escolha de alugar ou possuir uma vez e depois a reutiliza no portfólio inteiro. Resolver o encanamento da empresa uma vez direciona cerca de $300K-$500K de capital efetivo por venture para produto e tração em vez de custo administrativo.
Essa é a aritmética por trás de construir 3-4 empresas por ano sobre um stack compartilhado enquanto aloca $500K-1.5M por venture. O contexto do Brasil e da América Latina afia o argumento. Os serviços representam cerca de 70% do PIB brasileiro com baixa penetração de software, então os verticais endereçáveis são enormes, e um operador de domínio com mais de 10 anos de calo de mercado brasileiro é quem sabe qual lógica de fluxo vale possuir. Você lê o argumento completo em por que a Avante constrói como studio.
A infraestrutura de IA já está barata o bastante para operar sem uma Série A. Então o ativo escasso nunca foi o acesso ao modelo. É o dado proprietário e os evals que a camada própria cria enquanto o resto do mercado reconstrói um encanamento que poderia ter alugado. Os times que ainda ajustam o próprio índice vetorial em 2027 vão estar alugando inteligência e chamando isso de moat. Os times que possuíram o dado vão estar captando em cima dele.
Perguntas frequentes
- O que é o stack de IA enxuto que um time pequeno deve rodar?
- O stack de IA enxuto aluga as camadas de commodity e possui uma coisa só. Alugue modelos base por API, Postgres gerenciado com pgvector para recuperação, hospedagem serverless e observabilidade. Possua os dados proprietários, os evals de domínio e a lógica de fluxo vertical, porque essas são as únicas camadas que um concorrente não pode comprar.
- Uma startup deve construir ou comprar a sua infraestrutura de IA?
- Compre a commodity, possua o moat, espere no especulativo. Modelos base, armazenamento vetorial, hospedagem e observabilidade são commodities que um fornecedor roda mais barato do que um time pequeno, então alugue. Os dados, os evals e a lógica vertical são o moat, então construa. Qualquer coisa especulativa como fine-tuning espera até uma opção alugada quebrar de forma mensurável.
- Por que não subir um banco vetorial próprio para economizar?
- Porque o custo de fazer isso em casa é hora de engenheiro, não computação. Um setup confiável de um milhão de vetores custa cerca de US$ 385 a US$ 915 por mês, na maior parte US$ 320 a US$ 720 de tempo de engenheiro para ajuste, backups e plantão, contra cerca de US$ 99 por um equivalente gerenciado. Para um time de 2 a 3 pessoas, essa atenção rende mais no moat.
- Um time de 2 a 3 pessoas consegue lançar um produto de IA sem uma Série A?
- Sim. O custo de inferência de IA para uma capacidade fixa caiu cerca de 1.000x de 2021 a 2024 e cai cerca de 10x por ano, então inteligência virou um utilitário medido que você aluga por token. A infraestrutura de IA está barata o bastante para operar sem uma Série A. O ativo escasso é o dado proprietário e os evals, não o acesso ao modelo.
- Qual é o maior erro em um stack de IA no início?
- Infraestrutura prematura. Um time minúsculo reconstrói um banco vetorial, um gateway de modelos ou uma camada de orquestração que um fornecedor rodaria por uma fração do custo, e queima o caixa em encanamento em vez da única camada que vira o moat. Possua os dados e os evals. Alugue o resto até um número dizer que o fornecedor quebrou.
Quer mais? Receba um ensaio por semana sobre venture building, negócios AI-native e a oportunidade Brasil.
Ver Biblioteca completa →