RAG vs Fine-Tuning vs Contexto Largo: la Decisión de Build
RAG vs fine-tuning vs contexto largo decidido como una decisión de build, no preferencia. Un árbol de decisión y el moat que de verdad se acumula.
RAG vs fine-tuning vs contexto largo es una decisión de build, no una preferencia, y las tres opciones no pelean por el mismo trabajo. La recuperación compra conocimiento fresco, auditable e intercambiable. El fine-tuning compra comportamiento y formato a un costo por llamada más bajo, pagado con una carga de datos y de reentrenamiento. El contexto largo compra simplicidad para tareas acotadas y de una sola pasada.
Este es el playbook que corre Avante Ventures cuando construye un producto de IA vertical. Empiece por la recuperación, agregue fine-tuning solo cuando el comportamiento no se pueda resolver por prompt ni por recuperación, y reserve el contexto largo para tareas que caben en la ventana. El moat nunca es el modelo. Es el corpus de recuperación y los evals que lo rodean, un argumento que hacemos completo en nuestro texto sobre efectos de red de datos en la IA vertical.
RAG vs fine-tuning: qué te da cada uno de verdad
La forma más limpia de enmarcar RAG vs fine-tuning es dejar de preguntar cuál es mejor y empezar a preguntar qué compra cada uno. OpenAI lo plantea como un diagnóstico. Trate cada respuesta fallida como un problema de memoria en contexto o de memoria aprendida. La recuperación arregla el primero, cuando al modelo le falta el conocimiento, necesita dato actual o necesita algo propietario. El fine-tuning arregla el segundo, cuando el modelo necesita un comportamiento o formato consistente aprendido de ejemplos. OpenAI es directo al decir que el fine-tuning no es la herramienta para agregar conocimiento nuevo. Ese es trabajo de la recuperación.
La guía de Microsoft llega al mismo lugar por el otro lado. Usted elige RAG cuando el contenido es dinámico, los temas son amplios o no tiene datos y cómputo para entrenar. Elige fine-tuning cuando la tarea es estrecha y estable y tiene dato de dominio limpio suficiente para no caer en overfitting. Leído frente a un producto real, el trade-off deja de ser abstracto.
- Recuperación compra conocimiento fresco, auditable e intercambiable. Usted actualiza el corpus cuando quiere, cita el documento detrás de una respuesta y cambia el modelo base por debajo sin reentrenar.
- Fine-tuning compra comportamiento, adherencia de formato y un costo por llamada más bajo una vez entrenado. El precio es una carga permanente de datos y reentrenamiento, y congela un modelo base dentro del producto.
- Contexto largo compra simplicidad. Sin vector store, sin pipeline, solo ponga el material en el prompt. Solo se sostiene mientras el material cabe en la ventana y la cuenta de tokens sigue sana.
Un árbol de decisión para recuperación, tuning y contexto
Los dos grandes laboratorios apuntan al mismo lado. Empiece por el prompt, recurra a la recuperación antes de recurrir al entrenamiento. Anthropic incluso da un umbral de tamaño para la bifurcación del contexto largo. Si su base de conocimiento tiene menos de 200.000 tokens, cerca de 500 páginas, puede poner todo en el prompt y saltarse el RAG por completo. Por encima de eso, la recuperación se vuelve el camino escalable, y rinde. La recuperación contextual de Anthropic corta la tasa de falla de los 20 primeros fragmentos en 35% solo con embeddings contextuales, en 49% combinada con BM25 contextual, y en 67% cuando entra el reordenamiento, de una tasa de falla de 5,7% a 1,9%.
Aquí está el árbol que un operador corre esta semana. Son cuatro preguntas, en orden, y la mayoría de los productos nunca llega a la cuarta.
- Un mejor prompt sobre un modelo base fuerte lo resuelve? Si es así, pare. No construya maquinaria que después tendrá que mantener.
- La respuesta depende de conocimiento propietario, que cambia, o más grande que la ventana? Si es así, construya recuperación. Ese es el default para un producto vertical.
- La base de conocimiento es acotada, por debajo de unos 200.000 tokens, y la tarea es de una sola pasada? Use contexto largo y sáltese el pipeline.
- El modelo aún falla en comportamiento o formato que el prompt y la recuperación no arreglan? Solo ahora hace fine-tuning, y mantiene la capa de recuperación por debajo.
La recuperación contextual cortó la tasa de falla de los 20 primeros fragmentos en 67%, de 5,7% a 1,9%, al combinar embeddings contextuales, BM25 contextual y reordenamiento. La calidad de recuperación es un problema de ingeniería con soluciones conocidas, no un motivo para hacer fine-tuning.
— Anthropic, Contextual Retrieval, 2024
Cuando la recuperación es el default correcto
La recuperación es el default correcto para casi todo producto de IA vertical, porque las dos cosas que más necesita un producto de dominio son frescura y un rastro de papel. Un copilot legal tiene que mostrar el escrito detrás de su respuesta. Una herramienta de fijación de precios de seguros tiene que apuntar a la regla que aplicó. Un producto de sector público tiene que ser auditable por alguien que todavía no confía en él. El fine-tuning no le da nada de eso. Hornea el conocimiento en pesos que usted no puede inspeccionar ni citar.
La otra razón es económica, y es la que los equipos subestiman. La recuperación mantiene el modelo base intercambiable. Cuando sale un modelo más barato o mejor, y sale uno cada pocos meses, un producto que nace de la recuperación se muda a él sin reconstrucción. Un producto con fine-tuning queda atrapado en el modelo contra el que entrenó hasta que alguien pague por reentrenar. En un mercado donde la curva de costo se mueve tan rápido, ser intercambiable no es un lujo. Es la estrategia entera.
Cuando el fine-tuning vale su costo
El fine-tuning vale su costo cuando el problema es comportamiento, no conocimiento, y el prompt y la recuperación de verdad fallaron en resolverlo. Formato de salida consistente a lo largo de miles de llamadas. Un tono de la casa que un prompt no sostiene. Una tarea de clasificación o extracción donde un modelo pequeño ajustado empata con uno grande genérico por una fracción del precio por llamada. Esos son triunfos reales, y para tareas estrechas de alto volumen el ahorro por llamada es lo bastante grande para cambiar la economía unitaria.
El costo es una carga permanente, y usted debería nombrarla antes de comprometerse. Necesita un conjunto de datos grande, limpio y etiquetado. Uno pequeño cae en overfitting. El dominio se mueve, así que el modelo necesita reentrenamiento periódico. Y en el momento en que hace fine-tuning, congeló su modelo base. Cambiar a la opción más barata del próximo trimestre pasa a significar reentrenar, no cambiar una configuración. Haga fine-tuning cuando la ganancia de comportamiento pague esa cuenta. No haga fine-tuning porque se siente más serio que la recuperación.
Cómo tu corpus de recuperación se vuelve el moat
El corpus de recuperación es donde una venture AI-native defendible de verdad se acumula, y ese es el verdadero premio de la decisión de build. Un modelo con fine-tuning es una foto que envejece el día en que se entrena. Un corpus de recuperación es un activo que crece con cada interacción. Cada consulta respondida, cada documento ingerido, cada corrección de experto registrada se vuelve dato propietario que un competidor que empieza hoy no tiene y no puede comprar.
Este es el flywheel copilot, dato, capital, y es el patrón detrás de cada venture de Avante. Construya un copilot de IA para generar dato propietario, después use ese dato para levantar y desplegar capital. El copilot crea el corpus. El corpus más los evals de dominio que lo rodean se vuelven el moat. Y como la calidad es agnóstica de modelo y está protegida por esos evals, el producto se vuelve mejor y más barato cada vez que los modelos base mejoran, sin costo para usted. El modelo base se alquila y todo competidor alquila el mismo. El corpus y los evals son propiedad suya. Hacemos el argumento completo en el flywheel copilot, dato, capital.
Modos de falla: fine-tuning para esconder un problema de datos
El error más caro de todo este espacio es hacer fine-tuning para tapar un corpus flaco o mal etiquetado. La recuperación funciona mal porque el dato de abajo está desordenado, así que el equipo hace fine-tuning para forzar el comportamiento en vez de arreglar el dato. Parece progreso. Es lo contrario.
- Hornea una foto vieja del dominio dentro del producto, así que el conocimiento queda congelado en el momento del entrenamiento mientras el mundo sigue adelante.
- Esconde el problema real, que es calidad de dato, detrás de un artefacto de modelo difícil de inspeccionar y más difícil aún de corregir.
- Congela el modelo base, así que cuando los precios de inferencia caigan cerca de 10x al año siguiente, el equipo no puede capturar la caída sin pagar por reentrenar.
- El contexto largo abusado de la misma forma es su propia trampa. Empujar todo al prompt para esquivar la construcción de recuperación funciona hasta que el corpus desborda la ventana, la cuenta de tokens explota y la memoria se degrada en entradas largas.
Cómo Avante adopta recuperación más evaluaciones por defecto
Avante Ventures adopta recuperación más evaluaciones por defecto porque es la única arquitectura que captura una curva de costo en colapso en vez de pelear con ella. Un LLM con calidad de GPT-3 cayó de cerca de 60 dólares por millón de tokens a finales de 2021 a cerca de 0,06 dólares en 2024, cerca de 10x al año para un desempeño equivalente, según a16z. Epoch AI ubica la caída mediana cerca de 50x al año entre benchmarks. Un producto que nace de la recuperación, sobre modelos intercambiables, baja junto con esa curva. Uno con fine-tuning queda congelado por encima de ella.
Ese default encaja en el modelo de studio. Avante Ventures lanza 3-4 ventures por año mediante un sistema de seis etapas, Research, Partner, Build, Traction, Revenue, Compound, desplegando $500K-1.5M por venture y reteniendo economía de co-founder. Una construcción que nace de la recuperación mantiene cada venture bajando la curva de costo, y resolver esta plomería una vez enruta cerca de $300K-500K de capital efectivo por venture hacia producto en lugar de overhead. También encaja en el mercado. El uso de IA entre empresas industriales brasileñas saltó de 16,9% en 2022 a 41,9% en 2024, según el IBGE, y los servicios son cerca del 70% del PIB brasileño con baja penetración de software.
La prueba honesta para cualquier equipo es una pregunta. Si usted quitara el fine-tune, el producto seguiría funcionando sobre recuperación y un modelo base fuerte? Si la respuesta es no porque el dato no es lo bastante bueno, usted no tiene un problema de modelo. Tiene un problema de dato disfrazado de modelo. Arregle el dato. El equipo que mantiene sus modelos intercambiables es el equipo que sigue pudiendo cambiar.
Preguntas frecuentes
- Cuál es la diferencia entre RAG y fine-tuning?
- RAG vs fine-tuning se reduce a qué compra cada uno. La generación aumentada por recuperación le da al modelo conocimiento fresco, auditable e intercambiable en tiempo de inferencia, y le permite citar fuentes. El fine-tuning cambia el comportamiento y el formato del modelo entrenándolo con ejemplos, a un costo por llamada más bajo pero con una carga de datos y reentrenamiento. OpenAI lo enmarca como memoria en contexto, que es RAG, versus memoria aprendida, que es fine-tuning.
- Cuándo usar RAG o fine-tuning?
- Haga fine-tuning solo cuando el problema es comportamiento o formato que el prompt y la recuperación no arreglan, no cuando necesita agregar conocimiento. Buenos casos son un formato de salida consistente a lo largo de miles de llamadas, un tono de la casa, o una tarea estrecha de alto volumen donde un modelo pequeño ajustado empata con uno grande por mucho menos por llamada. Si hace fine-tuning para agregar hechos, use recuperación, porque el fine-tuning no fue hecho para agregar conocimiento nuevo.
- El contexto largo está reemplazando al RAG?
- No. El contexto largo reemplaza al RAG solo para tareas acotadas y de una sola pasada que caben en la ventana. Anthropic recomienda poner toda la base de conocimiento en el prompt cuando tiene menos de cerca de 200.000 tokens, unas 500 páginas, y usar recuperación por encima de eso. Para un corpus que crece o cualquier cosa que necesite citas y frescura, la recuperación sigue siendo el default.
- Qué es más barato, RAG o fine-tuning?
- Depende del volumen y de qué tan seguido cambia su dato. El RAG tiene menor costo inicial y sin reentrenamiento, y mantiene el modelo base intercambiable para que capture los precios de inferencia en caída, que han bajado cerca de 10x al año. El fine-tuning tiene un alto costo inicial de datos y entrenamiento, pero puede bajar el costo por llamada de una tarea estrecha de alto volumen, al precio de congelar su modelo base.
- Cómo decidir entre RAG, fine-tuning y contexto largo?
- Corra un árbol de decisión de cuatro pasos. Primero pruebe un mejor prompt. Si la respuesta necesita conocimiento propietario, que cambia o grande, construya recuperación. Si el corpus es acotado y está por debajo de cerca de 200.000 tokens y la tarea es de una sola pasada, use contexto largo. Solo haga fine-tuning cuando comportamiento o formato aún fallan después del prompt y la recuperación, y mantenga la capa de recuperación por debajo.
¿Quieres más? Recibe un ensayo a la semana sobre venture building, negocios AI-native y la oportunidad Brasil.
Ver Biblioteca completa →