Volver a la Biblioteca
Playbook·10 min·Jul 2026

El Stack de IA Mínimo que una Venture de 2 a 3 Personas Corre

El stack de IA mínimo que una venture de 2 a 3 personas corre de verdad, capa por capa, con una regla de construir o comprar para cada una.

El stack de IA mínimo que una venture de 2 a 3 personas corre alquila casi todo y posee una sola cosa. Alquile los modelos base, el almacenamiento vectorial, el hosting y la observabilidad. Construya los datos, los evals y la lógica del flujo de trabajo vertical, porque esas son las únicas capas que un competidor no compra hecha en un estante. Esa regla sola carga el playbook entero. Compre la commodity, posea el moat, espere en lo especulativo.

Esto es una decisión de construir o comprar, no una reseña de herramientas. Se resuelve con claridad en 2026 por una razón. El costo de inferencia se desplomó, así que la inteligencia se volvió un servicio medido que usted alquila por token, no un proyecto de capital que usted financia. Avante Ventures construye cada empresa así a propósito, y por eso tres personas ponen un producto de IA de verdad en el aire sin una Serie A.

Construir o comprar: la única pregunta de stack que importa temprano

Un equipo de 2 a 3 personas tiene un solo recurso escaso, y no es el dinero. Es la atención del ingeniero. Cada capa que el equipo decide construir es atención quitada de la única capa que se vuelve defendible. Así que la pregunta nunca es construir o comprar en abstracto. Es cuáles capas específicas son commodities para alquilar y cuál capa única es el moat para poseer.

La regla es directa a propósito. Compre la commodity, posea el moat, espere en lo especulativo. Los modelos base, el almacenamiento vectorial, el hosting, las colas y la observabilidad son commodities que los proveedores corren mejor y más barato de lo que cualquier equipo de tres personas va a lograr. El conjunto de datos propietario, los evals de dominio y la lógica del flujo vertical son el moat. El fine-tuning, un modelo self-hosted y un framework de orquestación propio son especulativos hasta que un equivalente alquilado se rompa de forma visible bajo su carga.

Existe una prueba rápida para cualquier capa que a usted le den ganas de construir. Si costaría lo mismo correrla con diez clientes o con diez mil, y un proveedor ya la vende como servicio medido, construirla es la herramienta equivocada. Poseer solo se paga en la capa que se vuelve más valiosa mientras más la usan sus clientes específicos.

  • Compre la commodity. Modelos base por API, Postgres gestionado para recuperación, hosting, colas, observabilidad. Proveedores de verdad, precios en caída, ninguna ventaja en correrlos usted mismo.
  • Posea el moat. Los datos propietarios que genera su flujo de trabajo, el conjunto de evals de dominio y la lógica vertical que codifica cómo funciona de verdad su mercado.
  • Espere en lo especulativo. Fine-tuning, levantar un modelo propio, un framework a medida. Esperar aquí es una decisión, no indecisión.

El costo de inferencia de IA para un nivel fijo de capacidad cayó de cerca de USD 60 por millón de tokens en 2021 a cerca de USD 0,06 en 2024, un factor de aproximadamente 1.000 en tres años, y baja cerca de 10x por año para un modelo de desempeño equivalente.

— a16z, LLMflation, 2024

El stack de IA mínimo, capa por capa

Aquí está el stack que un equipo mínimo arma esta semana, recorrido de abajo hacia arriba. Aplique la misma regla de comprar, construir o esperar en cada capa. Al final, el único código que el equipo de verdad posee es el código que se acumula.

La disciplina es mantener cada capa de commodity intercambiable y cada capa propia profunda. Alquile delgado, construya grueso.

  • Capa de modelo. Alquile modelos de frontera y modelos pequeños por API. Rutee las llamadas fáciles a un modelo pequeño y reserve un modelo de frontera para las difíciles. Esconda al proveedor detrás de una sola interfaz interna para que cambiar sea un ajuste de configuración.
  • Capa de recuperación y datos. Empiece con Postgres gestionado y la extensión pgvector, no con una base vectorial dedicada. Mantiene sus datos relacionales y sus embeddings en un sistema que usted ya opera. Agregue un almacenamiento especializado solo cuando un límite medido lo obligue.
  • Capa de aplicación y hosting. Alquile hosting serverless y una cola gestionada. Entregue el flujo de trabajo vertical, la parte que codifica cómo funciona de verdad su dominio, como código suyo.
  • Capa de observabilidad y evals. Alquile el log y el tracing. Construya los evals usted mismo, porque un conjunto de evals de dominio es un activo propietario, no una commodity.
  • Capa de feedback. Instrumente el producto para que cada corrección de un experto se capture como ejemplo etiquetado. Esa captura es lo que después convierte el uso en un conjunto de datos financiable.

Dónde comprar, dónde construir, dónde esperar

Dicho de forma directa, para que un fundador lo aplique en una tarde. Tres columnas, y la mayor parte del stack cae en la primera.

  • Compre ahora. Modelos base por API. Postgres gestionado con pgvector. Hosting serverless. Colas gestionadas. Observabilidad, tracing y autenticación. Commodities con proveedores de verdad y precios que caen cada trimestre.
  • Construya ahora. El conjunto de datos propietario y su pipeline de captura. El conjunto de evals de dominio. La lógica del flujo vertical que codifica más de 10 años de cicatrices de mercado del operador. Esta columna es el moat.
  • Espere. Fine-tuning, un modelo self-hosted, un framework de orquestación a medida, un motor vectorial propio. Cada uno se justifica solo cuando un equivalente alquilado se rompe de forma medible. Hasta entonces, esperar mantiene el efectivo en el moat.

El único movimiento que importa. Mantenga una lista escrita de lo que alquila y lo que posee, y defienda la frontera. Cada trimestre algo del lado del alquiler lo va a tentar a reconstruir. Resístalo, a menos que un número, y no una corazonada, diga que el proveedor se rompió.

Manteniendo el costo de inferencia fuera de la ruta crítica

El costo de inferencia es un problema resuelto para un equipo mínimo, y tratarlo como crisis es un modo de falla en sí mismo. Los precios de token en caída son la razón de que una venture de 2 a 3 personas ponga un producto de IA de verdad en el aire sin una Serie A. El mercado ya corta ese costo en un orden de magnitud por año, así que no gaste meses de ingeniería persiguiéndolo.

Epoch AI, midiendo el precio para alcanzar un umbral fijo, encuentra caídas entre 9x y 900x por año según la tarea, con una mediana cerca de 50x, y el precio para igualar el desempeño de nivel GPT-4 en preguntas científicas de nivel doctoral cayó cerca de 40x por año. Construir su propia inferencia para ahorrar es construir un activo que se deprecia.

Usted captura el ahorro sin un proyecto de fine-tuning con tres movimientos simples.

  • Rutee por dificultad. Un modelo barato para el 80 por ciento de llamadas fáciles, un modelo de frontera para el 20 por ciento difícil.
  • Cachee con agresividad. Deduplique prompts repetidos y reutilice el contexto recuperado para dejar de pagar dos veces por la misma respuesta.
  • Mantenga al proveedor intercambiable. Cuando un modelo más barato pase sus evals, cambiar debe ser un ajuste de configuración, no una reescritura.

El precio para alcanzar un umbral fijo de desempeño cayó entre 9x y 900x por año según la tarea, con una mediana en torno a 50x por año. El desempeño de nivel GPT-4 en preguntas científicas de doctorado se volvió cerca de 40x más barato cada año.

— Epoch AI, 2025

La única capa que vale poseer: tus datos y evaluaciones

El moat nunca es el modelo, y nunca es la infraestructura. Todo competidor llama a la misma API y alquila el mismo Postgres gestionado, así que las capas alquiladas no pueden ser fuente de ventaja. El activo durable es el dato propietario que genera su flujo de trabajo y los evals de dominio que prueban que su sistema está mejorando en el trabajo específico.

Este es el flywheel copilot, dato, capital enunciado como decisión de stack. Construya un copilot para generar datos propietarios y luego use ese dato para levantar y desplegar capital. Cada corrección de un experto capturada es un ejemplo etiquetado que un competidor no puede comprar, porque nace dentro de un flujo de trabajo que el competidor no corre. A lo largo de los trimestres, el stack alquilado se queda quieto y la capa propia se dispara adelante.

Poseer los evals importa más de lo que parece. Sin un conjunto de evals de dominio, un equipo ni siquiera puede decir si un modelo más barato es lo bastante bueno para migrar, así que paga de más por el modelo de frontera por miedo. Los evals específicos de dominio son a la vez el moat y el instrumento que le deja surfear la curva de precio en caída con seguridad. Construya las pruebas que solo su dato aprueba.

Modos de falla: infraestructura prematura

El modo de falla honesto es la infraestructura prematura. Un equipo minúsculo reconstruye una base vectorial, un gateway de modelos o una capa de orquestación que un proveedor correría por una fracción del costo, y quema su efectivo en plomería en vez de en la única capa que se vuelve el moat.

Los números son crueles con el instinto de hacerlo en casa. Para una carga modesta de un millón de vectores, un pgvector self-hosted y confiable cuesta alrededor de USD 385 a USD 915 por mes, y la línea dominante no es el cómputo. Son horas de ingeniero para setup, ajuste de índice, backups, failover y guardia, muchas veces USD 320 a USD 720 de ese total, contra cerca de USD 99 por mes por un equivalente gestionado. El trabajo de base de datos es invisible cuando sale bien y catastrófico cuando falla, así que la varianza, no el mes promedio, es lo que un equipo de tres personas no puede costear.

  • Infraestructura prematura. Construir un motor vectorial, un gateway de modelos o un framework de orquestación antes de que uno alquilado se rompa de forma medible.
  • Fine-tuning demasiado pronto. Gastar semanas para ahorrar tokens cuando los tokens caen 10x por año y prompt con recuperación ya pasaría la vara.
  • Poseer la capa equivocada. Invertir en la plomería de commodity y tratar los datos propietarios y los evals como algo secundario.
  • Lock-in de proveedor por descuido. Alquilar está bien, pero amarrar a un proveedor tan hondo que una opción 40x más barata no se pueda adoptar sin reescribir.
  • Sin conjunto de evals. Sin evals de dominio usted no surfea la curva de precio en caída, así que o paga de más por el modelo de frontera o entrega regresiones.

Un setup vectorial self-hosted y confiable para una carga de un millón de vectores cuesta cerca de USD 385 a USD 915 por mes, dominado por USD 320 a USD 720 de horas de ingeniero, contra cerca de USD 99 por mes por un equivalente gestionado.

— Rivestack, costo total de propiedad de pgvector

Cómo Avante resuelve la plomería una vez para varias ventures

Avante Ventures trata el build stack como una decisión de la etapa Build con retorno en la etapa Compound. El sistema de seis etapas corre Research, Partner, Build, Traction, Revenue, Compound, y el studio toma la decisión de alquilar o poseer una vez y luego la reutiliza en el portafolio entero. Resolver la plomería de la empresa una vez dirige cerca de $300K-$500K de capital efectivo por venture hacia producto y tracción en lugar de gasto administrativo.

Esa es la aritmética detrás de construir 3-4 empresas por año sobre un stack compartido mientras despliega $500K-1.5M por venture. El contexto de Brasil y América Latina afila el argumento. Los servicios representan cerca del 70% del PIB brasileño con baja penetración de software, así que los verticales direccionables son enormes, y un operador de dominio con más de 10 años de cicatrices del mercado brasileño es quien sabe cuál lógica de flujo vale poseer. Usted lee el argumento completo en por qué Avante construye como studio.

La infraestructura de IA ya está lo bastante barata como para desplegar sin una Serie A. Así que el activo escaso nunca fue el acceso al modelo. Es el dato propietario y los evals que la capa propia crea mientras el resto del mercado reconstruye una plomería que pudo haber alquilado. Los equipos que sigan ajustando su propio índice vectorial en 2027 van a estar alquilando inteligencia y llamándola moat. Los equipos que poseyeron el dato van a estar levantando capital sobre él.

Preguntas frecuentes

¿Qué es el stack de IA mínimo que un equipo pequeño debe correr?
El stack de IA mínimo alquila las capas de commodity y posee una sola cosa. Alquile modelos base por API, Postgres gestionado con pgvector para recuperación, hosting serverless y observabilidad. Posea los datos propietarios, los evals de dominio y la lógica del flujo vertical, porque esas son las únicas capas que un competidor no puede comprar.
¿Una startup debe construir o comprar su infraestructura de IA?
Compre la commodity, posea el moat, espere en lo especulativo. Los modelos base, el almacenamiento vectorial, el hosting y la observabilidad son commodities que un proveedor corre más barato que un equipo pequeño, así que alquílelos. Los datos, los evals y la lógica vertical son el moat, así que constrúyalos. Cualquier cosa especulativa como el fine-tuning espera hasta que una opción alquilada se rompa de forma medible.
¿Por qué no levantar una base vectorial propia para ahorrar?
Porque el costo de hacerlo en casa son horas de ingeniero, no cómputo. Un setup confiable de un millón de vectores cuesta cerca de USD 385 a USD 915 por mes, en su mayoría USD 320 a USD 720 de tiempo de ingeniero para ajuste, backups y guardia, contra cerca de USD 99 por un equivalente gestionado. Para un equipo de 2 a 3 personas, esa atención rinde más en el moat.
¿Un equipo de 2 a 3 personas puede lanzar un producto de IA sin una Serie A?
Sí. El costo de inferencia de IA para una capacidad fija cayó cerca de 1.000x de 2021 a 2024 y baja cerca de 10x por año, así que la inteligencia se volvió un servicio medido que usted alquila por token. La infraestructura de IA está lo bastante barata como para desplegar sin una Serie A. El activo escaso es el dato propietario y los evals, no el acceso al modelo.
¿Cuál es el mayor error en un stack de IA temprano?
La infraestructura prematura. Un equipo minúsculo reconstruye una base vectorial, un gateway de modelos o una capa de orquestación que un proveedor correría por una fracción del costo, y quema su efectivo en plomería en vez de la única capa que se vuelve el moat. Posea los datos y los evals. Alquile el resto hasta que un número diga que el proveedor se rompió.
— Equipo Fundador de Avante
São Paulo + Silicon Valley · escrito desde dentro del studio

¿Quieres más? Recibe un ensayo a la semana sobre venture building, negocios AI-native y la oportunidad Brasil.

Ver Biblioteca completa →