Evals de Dominio: el Moat que Sobrevive al Cambio de Modelos
Los modelos se vuelven commodity. El juicio codificado de qué es correcto no. Por qué una suite de evals de dominio es un moat AI-native subestimado.
Los evals de dominio son el moat de IA más subestimado que una empresa AI-native puede construir. Los modelos se vuelven commodity y los prompts se copian en un trimestre. El juicio codificado de qué significa correcto dentro de un flujo regulado y de alto riesgo no se copia. Ese juicio, capturado como una suite de pruebas con casos reales, casos de borde y resultados etiquetados por expertos, es caro de armar, se compone con el uso y es el activo que un competidor no puede replicar con una captura de pantalla.
También compra una segunda cosa que casi nadie pone en precio. La libertad de cambiar el modelo base mientras el costo de inferencia se desploma, sin apostar la calidad. En Avante Ventures, el venture studio que operamos construyendo empresas AI-native en Brasil y América Latina, la suite de evals es donde el uso acumulado de un copiloto se convierte en una ventaja de calidad que usted prueba, no que simplemente afirma.
Por qué los evals son moat, no una tarea tediosa
La mayoría de los equipos trata la evaluación como higiene de QA. Por eso pierden. Un producto AI-native hace una afirmación sobre el mundo cada vez que corre. Un copiloto que puntúa recuperación de deuda judicial, cotiza un riesgo de seguro o rankea un inmueble en subasta puede estar bien o mal, y mal cuesta caro. El mecanismo que decide lo correcto de lo incorrecto es la suite de evals. Eso la convierte en el producto, no en el papeleo que lo rodea.
La conversación estándar sobre el moat se detiene en la proprietary data, y ahí es donde se equivoca. El dato es materia prima. Un conjunto de evals es la definición codificada de corrección aplicada a esa materia. Dos negocios pueden tener datos casi idénticos y entregar calidad opuesta, porque uno corre una suite rigurosa, adversarial y etiquetada por operador y el otro está adivinando en producción. La suite de evals es la capa de defensibilidad de evals de LLM que convierte un montón de casos en una ventaja medible.
Si quitar el modelo rompe su producto en lugar de degradar una funcionalidad, usted es AI-native. Y la primera pregunta que sigue no es qué tan rápido entrega. Es cómo sabe que la salida es correcta.
Como los evals te hacen independiente del modelo
Una startup de IA independiente del modelo es la que cambia el motor un martes y prueba que la calidad se mantuvo el miércoles. La suite de evals es lo que lo hace posible. Corra el nuevo modelo contra la suite. Adóptelo solo si las notas se mantienen o mejoran. El conjunto de evals propietario es lo que convierte una curva de costo volátil en poder de precio en lugar de exposición.
Esto importa porque el precio y la calidad del modelo base se reordenan cada pocos meses. Un negocio que fija su calidad a un solo proveedor está apostando su margen al roadmap de ese proveedor. Un negocio con una suite de evals de dominio trata cada modelo nuevo como candidato, no como compromiso. El costo de ser independiente del modelo es casi cero cuando usted puede probar calidad en cada cambio. Es enorme cuando no puede, porque entonces el cambio se vuelve un acto de fe y no lo va a dar.
- Con suite propia: cambie a un modelo más barato o mejor la semana en que sale, valide en horas, capture el ahorro o la ganancia de calidad.
- Sin suite: quédese atado a un proveedor por miedo, o cambie a ciegas y descubra la regresión frente a un cliente.
- El activo no es el prompt ni el modelo. Es la definición codificada y etiquetada por operador de qué es correcto, que todo modelo debe pasar.
Por qué la curva de costo lo vuelve urgente
Los precios de inferencia caen rápido y de forma despareja, una dinámica que mapeamos para la región en la curva de costo de la infraestructura de IA, y por eso mismo usted no debería anclar la calidad a un solo modelo. Epoch AI encontró que el precio para alcanzar una capacidad fija cayó entre 9x y 900x por año según el benchmark, con una mediana cerca de 50x. Igualar a GPT-4 en preguntas de ciencia de nivel doctoral se volvió cerca de 40x más barato por año. Las caídas se aceleran. Midiendo desde enero de 2024 en adelante, la mediana salta a cerca de 200x por año.
a16z le puso un número único. El costo de inferencia en un nivel fijo de calidad cayó de 60 dólares por millón de tokens en 2021 a cerca de 6 centavos a fines de 2024, una caída de aproximadamente 1.000x en tres años. Cuando el piso se mueve tan rápido, la única forma de seguir capturando el ahorro es estar listo para cambiar. Estar listo es tener una suite de evals. Sin ella, cada caída de precio es un negocio que usted ve cerrar a un competidor. Esa es la ventaja del conjunto de evals propietario, que se compone en silencio mientras la curva de costo hace el trabajo ruidoso.
El costo de inferencia de LLM en un nivel fijo de calidad cayó de 60 dólares por millón de tokens en 2021 a cerca de 6 centavos a fines de 2024. Cerca de 1.000x en tres años.
— a16z, Welcome to LLMflation, 2024
Donde se ubican los evals entre los moats
El moat durable de un negocio de IA vertical es un stack, no un solo modelo. Insignia Ventures fue directa. La barrera para construir nunca fue tan baja, mientras defender lo que usted construyó se volvió exponencialmente más difícil. Documentaron startups de edición de imagen con IA que pasaron los 5 millones de dólares en ARR y luego vieron su valor evaporarse de un día para otro cuando un actor establecido lanzó la misma funcionalidad. La capacidad genérica es commodity. Las capas defensables están debajo de ella.
- Proprietary data: los casos, resultados y etiquetas que un competidor no compra. Necesario, lo más comentado, pero no suficiente por sí solo.
- Evals de dominio: el juicio codificado de qué es correcto, corrido contra cada modelo y cada release. La capa que convierte el uso acumulado en una ventaja de calidad comprobable.
- Workflow lock-in: el producto se vuelve donde se hace el trabajo y el sistema de registro, entonces el costo de cambio sube.
La trampa silenciosa de los evals malos
Un conjunto de evals malo es peor que ninguno, porque le da confianza apuntada en la dirección equivocada. Anthropic, un laboratorio cuyo negocio entero es medir modelos, escribió que una verdadera ciencia de evals sigue subdesarrollada y que una ventaja aparente puede ser suerte del sorteo, no capacidad real. Si ellos llaman subdesarrollada a la ciencia, un negocio vertical debería asumir que su primer conjunto de evals está mal de formas que todavía no puede ver.
Este es el modo de falla en términos simples. Un conjunto de evals codifica una definición de correcto. Si esa definición está sutilmente mal, usted optimiza fuerte hacia el objetivo equivocado y se siente bien haciéndolo. Una valuación de deuda judicial que le parece correcta a un ingeniero puede estar jurídicamente mal de un modo que solo un especialista capta. Un score de seguro puede pasar una prueba genérica de exactitud y aún así cotizar mal la cola que quiebra la cartera. Construir un buen conjunto de evals exige el recurso exacto que le falta a la mayoría de las startups de IA. Operadores de dominio profundos que sepan etiquetar casos de borde adversariales correctamente. Un equipo sin ese insumo no construye un instrumento débil. Construye uno preciso apuntado al objetivo equivocado, y entrega con convicción.
Una verdadera ciencia de evals sigue subdesarrollada, y una ventaja aparente de modelo puede ser suerte del sorteo en lugar de capacidad real. La advertencia viene de un laboratorio de frontera, no de un escéptico.
— Investigación de Anthropic sobre evaluación de modelos, 2024
Como Avante construye evals con operadores
La tesis de eval como moat es exactamente por qué el modelo de studio encaja en este momento. Un conjunto de evals correcto exige insumo de dominio profundo, y ese insumo es lo que le falta a la mayoría de las startups de IA. Avante Ventures combina un playbook de Silicon Valley y capital de primer cheque con operadores que cargan más de 10 años de cicatrices del mercado brasileño, ensamblados el día uno. El operating partner que conoce el dominio está en la construcción desde la etapa Partner, que es donde el diseño de evals tiene que empezar, no después del lanzamiento.
La estructura es deliberada. Avante lanza de 3 a 4 ventures por año mediante un sistema de seis etapas. Research, Partner, Build, Traction, Revenue, Compound. Cada venture recibe entre 500 mil y 1,5 millones de dólares en el pre-seed mientras el studio retiene economía de co-founder. El modelo tiene historial detrás. Según la Global Startup Studio Network, los venture studios muestran cerca de ~50% de IRR frente a ~19% del venture capital tradicional, cerca de 2,5x en horizontes realistas. Ese número es el benchmark del modelo de studio, no una afirmación sobre el retorno realizado de un fondo en particular.
El mercado al que apunta es concreto. Los servicios representan cerca del 70% del PIB brasileño, y según datos consolidados del IBGE mueven cerca del 80% de la generación de empleo formal. Son flujos regulados y cargados de juicio, donde lo correcto lo define el dominio y es adversarial. Justo donde una suite de evals de dominio es más difícil de construir y más defensable una vez lista. El portafolio corre un patrón en esos dominios. Construir un copiloto para generar proprietary data, codificar la corrección del dominio como evals para que la ventaja de calidad sea comprobable, y luego usar el dato y la credibilidad para levantar y desplegar capital. El flywheel copilot, dato, capital aparece en la valuación de activos judiciales en Alphajuri, en la cotización de riesgo de seguro en WIR y en la puntuación de inmuebles en subasta en BR Auction Intel. La infraestructura de IA ya está barata como para desplegar sin una Serie A. El cuello de botella se movió. Ya no es cómputo. Es el juicio codificado de qué significa correcto, y los operadores que saben definirlo. Ese es el argumento que detallamos en por qué un studio construye así.
¿Quieres más? Recibe un ensayo al mes sobre venture building, negocios AI-native y la oportunidad Brasil.
Ver Biblioteca completa →