¿Cuál es la forma más rápida de reducir el costo de inferencia de LLM sin perder calidad?

Rutee barato por defecto y escale a un modelo caro solo cuando la tarea lo exija. Una cascada de modelos que resuelve 70% del tráfico en la capa barata puede llevar el costo combinado a cerca de la mitad de correr el modelo de frontera en todo, y los resultados publicados de enrutamiento muestran ahorros de 45% a 85% conservando cerca del 95% de la calidad. Trabe cada cambio de modelo en un harness de evaluación para que un recorte de costo nunca entregue un producto peor por accidente.

¿Cómo funciona el enrutamiento de modelos en la práctica?

Un enrutador manda cada solicitud al modelo capaz más barato, verifica la salida, y escala solo lo que falla. Las estrategias van desde reglas estáticas que leen una etiqueta de tarea, a la selección por costo, al enrutamiento semántico que clasifica la intención, hasta una cascada completa. La tasa de escalamiento, la fracción de tráfico que llega a la capa cara, es el número que gobierna costo y calidad y debe monitorearse cada día.

¿Recortar el costo de inferencia de LLM significa recortar calidad?

Solo si optimiza costo antes de tener un harness de evaluación que proteja la calidad. Las evaluaciones le dejan rutear al modelo más barato que aún pasa su barra y meter cada modelo más barato el día en que califica. El modo de falla real es rutear todo al modelo más barato para proteger una hoja de cálculo, lo que entrega un producto peor y pierde los clientes cuyo uso habría armado su moat de dato.

¿Cuánto ahorran el caché de prompt y el procesamiento en lotes?

El caché de prompt descuenta las partes estables y repetidas de un prompt. OpenAI aplica 50% de descuento en los tokens de entrada en caché y Anthropic cobra las lecturas de caché a 0.1x de la tarifa base, un recorte de 90% en la porción en caché. El procesamiento en lotes junta trabajo no urgente en un solo trabajo a una tarifa menor, lo que sirve para enriquecimiento nocturno y corridas de evaluación que ningún usuario está esperando.

← Volver a la Biblioteca

Playbook·10 min·Jul 2026

Cómo Controlar el Costo de Inferencia de LLM con Enrutamiento de Modelos

Controle el costo de inferencia de LLM con enrutamiento de modelos sin perder calidad. Barato por defecto, caro bajo demanda, y cada cambio con evals.

Controlar el costo de inferencia de LLM es una decisión de producto, no de finanzas, y el enrutamiento de modelos es la palanca. Mande cada solicitud a un modelo barato por defecto, escale a uno caro solo cuando la tarea lo exija, use caché y lotes en lo que pueda, ponga presupuestos estrictos, y trabe cada cambio de modelo en un harness de evaluación. Haga eso y la inferencia deja de ser una factura que teme y se vuelve un margen que conserva.

Avante Ventures construye así porque el precio de un token cae más rápido que casi cualquier insumo en la historia del software. El que gana no es quien espera a que el precio baje. Es quien diseñó el producto para capturar la caída.

Por qué el costo de inferencia es decisión de producto, no de finanzas

El modelo por el que hoy paga una prima será la opción de presupuesto del próximo año a una fracción del precio. Según el análisis LLMflation de a16z, el desempeño al nivel de GPT-3 costaba cerca de $60 por millón de tokens en noviembre de 2021 y cerca de $0.06 en 2024 en un modelo abierto pequeño. Es una caída de aproximadamente 1,000x en tres años, cerca de 10x más barato por año para un mismo nivel de capacidad. La medición independiente de Epoch AI ubica la caída para una capacidad fija entre 9x y 900x por año, con una mediana alrededor de 50x.

Por eso el costo pertenece a la especificación del producto, no a una revisión trimestral de finanzas. Una venture cuyo producto ya corre la mayoría de las solicitudes en la capa barata captura esa deflación de forma automática, porque cada nuevo modelo que pasa su barra de calidad es más barato que el anterior. Una venture que fijó el modelo de frontera en todo paga el precio de ayer para siempre y no tiene hacia dónde caer.

Conviene nombrar la trampa. La frontera misma no se abarata. El o1 de OpenAI salió al mismo $60 por millón de tokens de salida que cobraba GPT-3 en 2021. La deflación está en alcanzar una capacidad fija, no en la frontera. Así que la pregunta real nunca es cuál modelo es el mejor. Es cuál modelo es lo bastante bueno para esta solicitud específica, probado con evaluaciones.

El desempeño al nivel de GPT-3 cayó de cerca de $60 por millón de tokens en 2021 a cerca de $0.06 en 2024, cerca de 10x más barato cada año para una capacidad fija.

— a16z, LLMflation

Corta el costo de inferencia de LLM en cinco pasos

Esta es la secuencia que un operador puede correr esta semana. Cada paso es medible y reversible, y cada uno asume que el anterior ya está en pie.

Instrumente antes de optimizar. Registre tokens de entrada, tokens de salida, modelo, latencia y costo en dólares por solicitud, etiquetados por tipo de tarea y por cliente. No se rutea lo que no se ve, y la mayoría de los equipos descubre 80% del gasto escondido en unos pocos tipos de tarea.
Rutee barato por defecto, escale bajo demanda. Mande cada solicitud primero a un modelo pequeño, verifique la salida, y escale al modelo caro solo ante la falla.
Use caché y lotes de forma agresiva. Encienda el caché de prompt para las partes estables de los prompts y agrupe en lotes todo lo que no sea sensible a la latencia.
Ponga presupuestos estrictos y alertas. Coloque un tope de tokens por cliente y por ambiente con alerta en 70% y un límite duro, para que un bucle de reintentos descontrolado active un límite, no una factura.
Trabe cada cambio de modelo en evaluaciones. Ningún cambio de modelo, más barato o más caro, entra sin pasar el harness. Esa disciplina es la que corta costo sin cortar calidad por accidente.

Enrutamiento de modelos: barato por defecto, caro bajo demanda

Una cascada de modelos manda cada solicitud al modelo capaz más barato, verifica el resultado, y escala solo lo que falla. Toda la economía gira en torno a un número: la tasa de escalamiento, la fracción del tráfico que cae a la capa cara.

Los números publicados son sólidos. El análisis de enrutamiento de TrueFoundry muestra que una tasa de 70% de resolución en la capa barata lleva el costo combinado a cerca de la mitad de correr el modelo de frontera en todo, aun pagando el intento barato que falló en el 30% que escala. Con una brecha de precio de 10x entre capas, una cascada aterriza cerca del 40% del costo de frontera-en-todo. Los reportes de quienes operan ubican el ahorro real entre 45% y 85% conservando cerca del 95% de la calidad.

Empiece con el enrutador más simple que funcione. Las reglas estáticas que eligen el modelo a partir de una etiqueta de tarea cuestan casi nada al correr. El enrutamiento por costo elige el modelo más barato que pasa un umbral de calidad. El enrutamiento semántico incrusta la solicitud y clasifica la intención por unos milisegundos de overhead. La cascada va encima. Vigile la tasa de escalamiento cada día, porque si sube es que el modelo barato se degradó o el mix de tráfico cambió, y de cualquier forma su costo combinado acaba de moverse.

La tasa de escalamiento es el único número para mirar cada día. Es la que amarra su calidad a su factura, y debería vivir en un tablero, no aparecer en una factura a fin de mes.

Cache, lotes y presupuestos estrictos

El enrutamiento decide cuál modelo. El caché, los lotes y los presupuestos deciden qué tan poco paga por las solicitudes que sí manda. Son las victorias más baratas de la pila y la mayoría de los equipos las deja sobre la mesa.

El caché de prompt paga por el contexto estable que manda una y otra vez, como prompts de sistema, definiciones de herramientas y documentos recuperados. OpenAI aplica un descuento de 50% en los tokens de entrada en caché. Anthropic cobra las lecturas de caché a 0.1x de la tarifa base de entrada, un recorte de 90% en la porción repetida. El procesamiento en lotes junta muchas solicitudes no urgentes en un solo trabajo a una tarifa menor, lo que sirve para enriquecimiento nocturno, evaluaciones y trabajo de trastienda que ningún usuario está esperando.

Los presupuestos son el cinturón de seguridad. Un tope por cliente y por ambiente con alerta mucho antes del techo convierte un abuso por inyección de prompt o una tormenta de reintentos en un límite activado, no en una sorpresa de cinco cifras. El control de costo que depende de que nadie se equivoque no es control de costo.

Cómo las evaluaciones te dejan bajar la curva de costo

El harness de evaluación no es overhead. Es el activo que vuelve seguro cada recorte de costo y convierte la independencia de proveedor en una posición que el competidor no copia.

Cada solicitud real que su producto atiende es un ejemplo etiquetado de lo que es bueno en su dominio. Capture las salidas que los clientes aceptan, corrigen o rechazan y arma un conjunto de evaluaciones específico del dominio que ningún rival tiene. Ese conjunto hace dos trabajos a la vez. Le deja meter cada modelo más barato el día en que pasa su barra, así baja la curva de costo sin regresión de calidad. Y se vuelve dato propietario, que es el flywheel copilot, dato, capital: construir un copilot de IA para generar dato propietario y luego usar ese dato para levantar y desplegar capital. Las evaluaciones específicas de dominio como moat de IA son donde el uso se acumula en defensabilidad.

Como la calidad está protegida por evaluaciones y no por una apuesta a un proveedor, la venture queda libre de rutear a quien esté más barato por unidad de calidad verificada este trimestre. El moat es el conjunto de evaluaciones y el flujo de trabajo, detallado en el flywheel copilot, dato, capital, nunca el modelo. El modelo es la commodity que sigue abaratándose.

Modos de falla: optimizar costo antes de tener calidad

El error más caro es optimizar costo antes de haberse ganado el derecho a hacerlo. Un equipo que rutea todo al modelo más barato para proteger una hoja de cálculo entrega un producto peor, pierde los clientes cuyo uso habría armado el conjunto de evaluaciones y el moat de dato, y termina sin margen y sin moat. Aquí es donde los equipos se equivocan.

Costo antes de calidad. Recortar a la capa barata antes de que sus evaluaciones atrapen la regresión. Usted no ve la pérdida de calidad. Su churn sí.
Sin traba de evaluación. Cambiar de modelo por instinto. Cada cambio debe pasar el harness o está volando a ciegas.
Tasa de escalamiento sin seguimiento. Ignore la fracción de tráfico que pega en la capa cara y una deriva silenciosa duplica su factura o corta su calidad a la mitad sin ninguna alarma.
Encierro de proveedor disfrazado de simplicidad. Fijar un modelo para esquivar el trabajo de enrutamiento se siente ligero hasta que ese proveedor sube precios o se queda atrás y usted no tiene conjunto de evaluaciones para migrar con seguridad.
Medir lo que no es. Optimizar el costo promedio por token en vez del costo por solicitud satisfecha. Una respuesta barata que el cliente rechaza es el token más caro que va a comprar.

Cómo Avante mantiene el margen del lado de la venture

La infraestructura de IA ya está lo bastante barata para desplegar sin una Serie A, y la demanda ya llegó. En Brasil, la porción de empresas industriales con 100 o más empleados que usan IA subió de 16.9% en 2022 a 41.9% en 2024, según la PINTEC del IBGE, y Bain halló que 25% de las empresas brasileñas tenían un caso de uso de IA en producción, más del doble que el año anterior. La venture que atiende esa demanda con una base de costo de capa barata conserva el margen. La que paga precio de frontera en cada solicitud lo regala.

Avante Ventures es un venture studio que construye empresas AI-native en Brasil y América Latina, y la disciplina de enrutamiento es lo que vuelve aritméticamente posible lanzar 3-4 ventures por año con márgenes ajustados. Resolver la plomería una vez, incluida la pila de enrutamiento y evaluación, dirige cerca de $300K-$500K de capital efectivo por venture hacia producto y tracción en lugar de overhead. Esa eficiencia de capital es la razón por la que las ventures de studio llegan a los primeros ingresos 6-9 meses antes que un equipo independiente con financiamiento comparable, y por la que el modelo de studio marca cerca de 50% de IRR frente a cerca de 19% del venture capital tradicional, según GSSN.

Así que gane la calidad primero con el modelo que funciona, instrumente cada solicitud, y solo entonces recorte costo bajo la protección de las evaluaciones. Un equipo que lo hace en ese orden baja la curva de costo gratis. Un equipo que lo hace al revés paga dos veces, una por el churn y otra por el moat que nunca construyó. Vea por qué Avante construye así.

Preguntas frecuentes

¿Cuál es la forma más rápida de reducir el costo de inferencia de LLM sin perder calidad?: Rutee barato por defecto y escale a un modelo caro solo cuando la tarea lo exija. Una cascada de modelos que resuelve 70% del tráfico en la capa barata puede llevar el costo combinado a cerca de la mitad de correr el modelo de frontera en todo, y los resultados publicados de enrutamiento muestran ahorros de 45% a 85% conservando cerca del 95% de la calidad. Trabe cada cambio de modelo en un harness de evaluación para que un recorte de costo nunca entregue un producto peor por accidente.
¿Por qué el costo de inferencia de LLM es una decisión de producto y no de finanzas?: Porque la arquitectura que arma en el lanzamiento decide si la caída del precio de los tokens se vuelve su margen o lo deja atrás. Según a16z, el costo de una capacidad fija cayó cerca de 10x por año, así que un producto que ya corre la mayoría de las solicitudes en la capa barata captura esa deflación de forma automática. Un producto que fijó el modelo de frontera en todo sigue pagando el precio de ayer.
¿Cómo funciona el enrutamiento de modelos en la práctica?: Un enrutador manda cada solicitud al modelo capaz más barato, verifica la salida, y escala solo lo que falla. Las estrategias van desde reglas estáticas que leen una etiqueta de tarea, a la selección por costo, al enrutamiento semántico que clasifica la intención, hasta una cascada completa. La tasa de escalamiento, la fracción de tráfico que llega a la capa cara, es el número que gobierna costo y calidad y debe monitorearse cada día.
¿Recortar el costo de inferencia de LLM significa recortar calidad?: Solo si optimiza costo antes de tener un harness de evaluación que proteja la calidad. Las evaluaciones le dejan rutear al modelo más barato que aún pasa su barra y meter cada modelo más barato el día en que califica. El modo de falla real es rutear todo al modelo más barato para proteger una hoja de cálculo, lo que entrega un producto peor y pierde los clientes cuyo uso habría armado su moat de dato.
¿Cuánto ahorran el caché de prompt y el procesamiento en lotes?: El caché de prompt descuenta las partes estables y repetidas de un prompt. OpenAI aplica 50% de descuento en los tokens de entrada en caché y Anthropic cobra las lecturas de caché a 0.1x de la tarifa base, un recorte de 90% en la porción en caché. El procesamiento en lotes junta trabajo no urgente en un solo trabajo a una tarifa menor, lo que sirve para enriquecimiento nocturno y corridas de evaluación que ningún usuario está esperando.

— Equipo Fundador de Avante

São Paulo + Silicon Valley · escrito desde dentro del studio

¿Quieres más? Recibe un ensayo a la semana sobre venture building, negocios AI-native y la oportunidad Brasil.

Ver Biblioteca completa →