O que é o stack de IA enxuto que um time pequeno deve rodar?

O stack de IA enxuto aluga as camadas de commodity e possui uma coisa só. Alugue modelos base por API, Postgres gerenciado com pgvector para recuperação, hospedagem serverless e observabilidade. Possua os dados proprietários, os evals de domínio e a lógica de fluxo vertical, porque essas são as únicas camadas que um concorrente não pode comprar.

Uma startup deve construir ou comprar a sua infraestrutura de IA?

Compre a commodity, possua o moat, espere no especulativo. Modelos base, armazenamento vetorial, hospedagem e observabilidade são commodities que um fornecedor roda mais barato do que um time pequeno, então alugue. Os dados, os evals e a lógica vertical são o moat, então construa. Qualquer coisa especulativa como fine-tuning espera até uma opção alugada quebrar de forma mensurável.

Por que não subir um banco vetorial próprio para economizar?

Porque o custo de fazer isso em casa é hora de engenheiro, não computação. Um setup confiável de um milhão de vetores custa cerca de US$ 385 a US$ 915 por mês, na maior parte US$ 320 a US$ 720 de tempo de engenheiro para ajuste, backups e plantão, contra cerca de US$ 99 por um equivalente gerenciado. Para um time de 2 a 3 pessoas, essa atenção rende mais no moat.

Um time de 2 a 3 pessoas consegue lançar um produto de IA sem uma Série A?

Sim. O custo de inferência de IA para uma capacidade fixa caiu cerca de 1.000x de 2021 a 2024 e cai cerca de 10x por ano, então inteligência virou um utilitário medido que você aluga por token. A infraestrutura de IA está barata o bastante para operar sem uma Série A. O ativo escasso é o dado proprietário e os evals, não o acesso ao modelo.

← Voltar para Biblioteca

Playbook·10 min·Jul 2026

O Stack de IA Enxuto que uma Venture de 2 a 3 Pessoas Roda

O stack de IA enxuto que uma venture de 2 a 3 pessoas roda de fato, camada por camada, com uma regra de construir ou comprar para cada uma.

O stack de IA enxuto que uma venture de 2 a 3 pessoas roda aluga quase tudo e possui uma coisa só. Alugue os modelos base, o armazenamento vetorial, a hospedagem e a observabilidade. Construa os dados, os evals e a lógica de fluxo de trabalho vertical, porque essas são as únicas camadas que um concorrente não compra pronto na prateleira. Essa regra sozinha carrega o playbook inteiro. Compre a commodity, possua o moat, espere no que é especulativo.

Isto é uma decisão de construir ou comprar, não uma resenha de ferramentas. Ela se resolve com clareza em 2026 por um motivo. O custo de inferência despencou, então inteligência virou um utilitário medido que você aluga por token, não um projeto de capital que você financia. A Avante Ventures constrói cada empresa assim de propósito, e é por isso que três pessoas colocam um produto de IA de verdade no ar sem uma Série A.

Construir ou comprar: a única pergunta de stack que importa cedo

Um time de 2 a 3 pessoas tem um único recurso escasso, e não é dinheiro. É a atenção do engenheiro. Cada camada que o time decide construir é atenção tirada da única camada que se torna defensável. Então a pergunta nunca é construir ou comprar no abstrato. É quais camadas específicas são commodities para alugar e qual camada única é o moat para possuir.

A regra é direta de propósito. Compre a commodity, possua o moat, espere no que é especulativo. Modelos base, armazenamento vetorial, hospedagem, filas e observabilidade são commodities que fornecedores rodam melhor e mais barato do que qualquer time de três pessoas vai rodar. O conjunto de dados proprietário, os evals de domínio e a lógica de fluxo vertical são o moat. Fine-tuning, um modelo self-hosted e um framework de orquestração próprio são especulativos até um equivalente alugado quebrar de forma visível sob a sua carga.

Existe um teste rápido para qualquer camada que você sinta vontade de construir. Se ela custaria o mesmo para rodar com dez clientes ou dez mil, e um fornecedor já vende isso como serviço medido, construí-la é a ferramenta errada. Possuir só se paga na camada que fica mais valiosa quanto mais os seus clientes específicos a usam.

Compre a commodity. Modelos base por API, Postgres gerenciado para recuperação, hospedagem, filas, observabilidade. Fornecedores de verdade, preços em queda, nenhuma vantagem em rodar por conta própria.
Possua o moat. Os dados proprietários que o seu fluxo de trabalho gera, o conjunto de evals de domínio e a lógica vertical que codifica como o seu mercado de fato funciona.
Espere no especulativo. Fine-tuning, subir um modelo próprio, um framework sob medida. Esperar aqui é uma decisão, não indecisão.

O custo de inferência de IA para um nível fixo de capacidade caiu de cerca de US$ 60 por milhão de tokens em 2021 para cerca de US$ 0,06 em 2024, um fator de aproximadamente 1.000 em três anos, e cai cerca de 10x por ano para um modelo de desempenho equivalente.

— a16z, LLMflation, 2024

O stack de IA enxuto, camada por camada

Aqui está o stack que um time enxuto monta esta semana, percorrido de baixo para cima. Aplique a mesma regra de comprar, construir ou esperar em cada camada. No fim, o único código que o time de fato possui é o código que se acumula.

A disciplina é manter cada camada de commodity trocável e cada camada própria profunda. Alugue fino, construa grosso.

Camada de modelo. Alugue modelos de fronteira e modelos pequenos por API. Roteie as chamadas fáceis para um modelo pequeno e reserve um modelo de fronteira para as difíceis. Esconda o fornecedor atrás de uma única interface interna para que trocar seja mudança de configuração.
Camada de recuperação e dados. Comece com Postgres gerenciado e a extensão pgvector, não com um banco vetorial dedicado. Isso mantém os seus dados relacionais e os seus embeddings em um sistema que você já opera. Adicione um armazenamento especializado só quando um limite medido forçar.
Camada de aplicação e hospedagem. Alugue hospedagem serverless e uma fila gerenciada. Entregue o fluxo de trabalho vertical, a parte que codifica como o seu domínio de fato funciona, como código seu.
Camada de observabilidade e evals. Alugue o log e o tracing. Construa os evals você mesmo, porque um conjunto de evals de domínio é um ativo proprietário, não uma commodity.
Camada de feedback. Instrumente o produto para que cada correção de especialista seja capturada como exemplo rotulado. Essa captura é o que depois transforma uso em um conjunto de dados financiável.

Onde comprar, onde construir, onde esperar

Dito de forma direta, para um fundador aplicar em uma tarde. Três colunas, e a maior parte do stack cai na primeira.

Compre agora. Modelos base por API. Postgres gerenciado com pgvector. Hospedagem serverless. Filas gerenciadas. Observabilidade, tracing e autenticação. Commodities com fornecedores de verdade e preços que caem a cada trimestre.
Construa agora. O conjunto de dados proprietário e o seu pipeline de captura. O conjunto de evals de domínio. A lógica de fluxo vertical que codifica mais de 10 anos de calo de mercado do operador. Esta coluna é o moat.
Espere. Fine-tuning, um modelo self-hosted, um framework de orquestração sob medida, um motor vetorial próprio. Cada um se justifica só quando um equivalente alugado quebra de forma mensurável. Até lá, esperar mantém o caixa no moat.

O único movimento que importa. Mantenha uma lista escrita do que você aluga e do que você possui, e defenda a fronteira. Todo trimestre algo do lado do aluguel vai tentar você a reconstruir. Resista, a menos que um número, e não um palpite, diga que o fornecedor quebrou.

Mantendo o custo de inferência fora do caminho crítico

O custo de inferência é um problema resolvido para um time enxuto, e tratá-lo como crise é um modo de falha em si. Preços de token em queda são a razão de uma venture de 2 a 3 pessoas colocar um produto de IA de verdade no ar sem uma Série A. O mercado já corta esse custo em uma ordem de grandeza por ano, então não gaste meses de engenharia perseguindo-o.

A Epoch AI, medindo o preço para atingir um patamar fixo, encontra quedas entre 9x e 900x por ano dependendo da tarefa, com mediana perto de 50x, e o preço para igualar o desempenho de nível GPT-4 em questões científicas de nível de doutorado caiu cerca de 40x por ano. Construir a sua própria inferência para economizar é construir um ativo que se deprecia.

Você captura a economia sem um projeto de fine-tuning com três movimentos simples.

Roteie por dificuldade. Um modelo barato para os 80 por cento de chamadas fáceis, um modelo de fronteira para os 20 por cento difíceis.
Faça cache com agressividade. Deduplique prompts repetidos e reaproveite o contexto recuperado para parar de pagar duas vezes pela mesma resposta.
Mantenha o fornecedor trocável. Quando um modelo mais barato passar nos seus evals, trocar deve ser mudança de configuração, não reescrita.

O preço para atingir um patamar fixo de desempenho caiu entre 9x e 900x por ano conforme a tarefa, com mediana em torno de 50x por ano. O desempenho de nível GPT-4 em questões científicas de doutorado ficou cerca de 40x mais barato a cada ano.

— Epoch AI, 2025

A única camada que vale possuir: seus dados e avaliações

O moat nunca é o modelo, e nunca é a infraestrutura. Todo concorrente chama a mesma API e aluga o mesmo Postgres gerenciado, então camadas alugadas não podem ser fonte de vantagem. O ativo durável é o dado proprietário que o seu fluxo de trabalho gera e os evals de domínio que provam que o seu sistema está ficando melhor no trabalho específico.

Este é o flywheel copilot, dado, capital enunciado como decisão de stack. Construa um copilot para gerar dados proprietários e depois use esse dado para captar e alocar capital. Cada correção de especialista capturada é um exemplo rotulado que um concorrente não pode comprar, porque nasce dentro de um fluxo de trabalho que o concorrente não roda. Ao longo dos trimestres, o stack alugado fica parado e a camada própria dispara na frente.

Possuir os evals importa mais do que parece. Sem um conjunto de evals de domínio, um time nem consegue dizer se um modelo mais barato é bom o bastante para migrar, então paga caro pelo modelo de fronteira por medo. Os evals específicos de domínio são ao mesmo tempo o moat e o instrumento que deixa você surfar a curva de preço em queda com segurança. Construa os testes que só o seu dado passa.

Modos de falha: infraestrutura prematura

O modo de falha honesto é a infraestrutura prematura. Um time minúsculo reconstrói um banco vetorial, um gateway de modelos ou uma camada de orquestração que um fornecedor rodaria por uma fração do custo, e queima o caixa em encanamento em vez da única camada que vira o moat.

Os números são cruéis com o instinto de fazer em casa. Para uma carga modesta de um milhão de vetores, um pgvector self-hosted e confiável custa por volta de US$ 385 a US$ 915 por mês, e a linha dominante não é computação. É hora de engenheiro para setup, ajuste de índice, backups, failover e plantão, muitas vezes US$ 320 a US$ 720 desse total, contra cerca de US$ 99 por mês por um equivalente gerenciado. Trabalho de banco de dados é invisível quando dá certo e catastrófico quando falha, então a variância, não o mês médio, é o que um time de três pessoas não pode bancar.

Infraestrutura prematura. Construir um motor vetorial, um gateway de modelos ou um framework de orquestração antes de um alugado quebrar de forma mensurável.
Fine-tuning cedo demais. Gastar semanas para economizar tokens quando tokens caem 10x por ano e prompt com recuperação já passaria na régua.
Possuir a camada errada. Investir no encanamento de commodity e tratar os dados proprietários e os evals como algo secundário.
Lock-in de fornecedor por descuido. Alugar está certo, mas amarrar um fornecedor tão fundo que uma opção 40x mais barata não pode ser adotada sem reescrever.
Sem conjunto de evals. Sem evals de domínio você não surfa a curva de preço em queda, então ou paga caro pelo modelo de fronteira ou entrega regressões.

Um setup vetorial self-hosted e confiável para uma carga de um milhão de vetores custa cerca de US$ 385 a US$ 915 por mês, dominado por US$ 320 a US$ 720 de horas de engenheiro, contra cerca de US$ 99 por mês por um equivalente gerenciado.

— Rivestack, custo total de propriedade do pgvector

Como a Avante resolve o encanamento uma vez para várias ventures

A Avante Ventures trata o build stack como uma decisão da etapa Build com retorno na etapa Compound. O sistema de seis etapas roda Research, Partner, Build, Traction, Revenue, Compound, e o studio toma a escolha de alugar ou possuir uma vez e depois a reutiliza no portfólio inteiro. Resolver o encanamento da empresa uma vez direciona cerca de $300K-$500K de capital efetivo por venture para produto e tração em vez de custo administrativo.

Essa é a aritmética por trás de construir 3-4 empresas por ano sobre um stack compartilhado enquanto aloca $500K-1.5M por venture. O contexto do Brasil e da América Latina afia o argumento. Os serviços representam cerca de 70% do PIB brasileiro com baixa penetração de software, então os verticais endereçáveis são enormes, e um operador de domínio com mais de 10 anos de calo de mercado brasileiro é quem sabe qual lógica de fluxo vale possuir. Você lê o argumento completo em por que a Avante constrói como studio.

A infraestrutura de IA já está barata o bastante para operar sem uma Série A. Então o ativo escasso nunca foi o acesso ao modelo. É o dado proprietário e os evals que a camada própria cria enquanto o resto do mercado reconstrói um encanamento que poderia ter alugado. Os times que ainda ajustam o próprio índice vetorial em 2027 vão estar alugando inteligência e chamando isso de moat. Os times que possuíram o dado vão estar captando em cima dele.

Perguntas frequentes

O que é o stack de IA enxuto que um time pequeno deve rodar?: O stack de IA enxuto aluga as camadas de commodity e possui uma coisa só. Alugue modelos base por API, Postgres gerenciado com pgvector para recuperação, hospedagem serverless e observabilidade. Possua os dados proprietários, os evals de domínio e a lógica de fluxo vertical, porque essas são as únicas camadas que um concorrente não pode comprar.
Uma startup deve construir ou comprar a sua infraestrutura de IA?: Compre a commodity, possua o moat, espere no especulativo. Modelos base, armazenamento vetorial, hospedagem e observabilidade são commodities que um fornecedor roda mais barato do que um time pequeno, então alugue. Os dados, os evals e a lógica vertical são o moat, então construa. Qualquer coisa especulativa como fine-tuning espera até uma opção alugada quebrar de forma mensurável.
Por que não subir um banco vetorial próprio para economizar?: Porque o custo de fazer isso em casa é hora de engenheiro, não computação. Um setup confiável de um milhão de vetores custa cerca de US$ 385 a US$ 915 por mês, na maior parte US$ 320 a US$ 720 de tempo de engenheiro para ajuste, backups e plantão, contra cerca de US$ 99 por um equivalente gerenciado. Para um time de 2 a 3 pessoas, essa atenção rende mais no moat.
Um time de 2 a 3 pessoas consegue lançar um produto de IA sem uma Série A?: Sim. O custo de inferência de IA para uma capacidade fixa caiu cerca de 1.000x de 2021 a 2024 e cai cerca de 10x por ano, então inteligência virou um utilitário medido que você aluga por token. A infraestrutura de IA está barata o bastante para operar sem uma Série A. O ativo escasso é o dado proprietário e os evals, não o acesso ao modelo.
Qual é o maior erro em um stack de IA no início?: Infraestrutura prematura. Um time minúsculo reconstrói um banco vetorial, um gateway de modelos ou uma camada de orquestração que um fornecedor rodaria por uma fração do custo, e queima o caixa em encanamento em vez da única camada que vira o moat. Possua os dados e os evals. Alugue o resto até um número dizer que o fornecedor quebrou.

— Time Fundador da Avante

São Paulo + Vale do Silício · escrito de dentro do studio

Quer mais? Receba um ensaio por semana sobre venture building, negócios AI-native e a oportunidade Brasil.

Ver Biblioteca completa →