Implementación & Costos
El costo real de LLMs en producción: lo que nadie te dice sobre la factura de inferencia
Una POC con GPT-4 cuesta $50/mes. Una demo que impresiona al directorio. Pero cuando esa demo se convierte en producción con 10,000 usuarios diarios, la factura sube a $15K-$50K/mes. Y eso antes de contar observabilidad, guardrails, fallbacks y el equipo que lo opera. Según a16z, los costos de inferencia en producción son 10-100x mayores que en training para deployments empresariales.
Los 7 componentes que nadie presupuesta
La factura del modelo es solo la punta del iceberg. Un stack típico de LLM en producción tiene 7 componentes de costo:
- Inferencia del modelo (40-60% del costo total): Tokens de entrada + tokens de salida × precio por token × volumen. Varía dramáticamente entre modelos: GPT-4o cuesta ~10x más que GPT-4o-mini para resultados que muchas veces son equivalentes.
- Embedding y retrieval (10-15%): Para RAG (Retrieval-Augmented Generation), el costo de vectorizar documentos y buscar en la base vectorial. Escala linealmente con el tamaño del corpus.
- Observabilidad y logging (5-10%): LangSmith, Weights & Biases, Datadog con tracing de LLM. Cada request se logea con prompt, respuesta, latencia, tokens, y metadata. En alta escala, el logging puede costar más que el modelo en sí.
- Guardrails y safety (5-8%): Filtros de contenido, detección de jailbreak, PII masking, output validation. Típicamente requieren un modelo adicional o API dedicada que corre en paralelo.
- Caching y optimización (3-5%): Redis/Memcached para semantic caching. Inversión inicial que genera 30-40% de ahorro en inferencia. ROI positivo desde el mes 1 en la mayoría de casos.
- Infraestructura de serving (5-10%): La GPU/TPU si es self-hosted, o el compute de la API. Incluye load balancing, auto-scaling, retry logic, y redundancia multi-región para alta disponibilidad.
- Equipo humano (20-30% — fuera de OPEX de infra): ML engineers, prompt engineers, SREs. Un equipo mínimo para operar LLMs en producción: 2-3 personas full-time para un producto, 5-8 para una plataforma multiproducto.
Calculadora TCO: escenarios reales
Tres escenarios que hemos visto en la práctica:
Escenario A: Chatbot interno (1K usuarios/día)
- Modelo: GPT-4o-mini vía API
- Promedio: 800 tokens/request, 3 requests/usuario/día
- Costo de inferencia: ~$800/mes
- Costo total (infra + observ + guardrails): ~$2,500/mes
- Costo con equipo (0.5 FTE): ~$7,500/mes total
Escenario B: Customer service AI (10K tickets/día)
- Modelo: Mix de GPT-4o (complejo) + GPT-4o-mini (rutinario) con routing
- Promedio: 2,000 tokens/request con RAG, routing 70/30
- Costo de inferencia: ~$8,000/mes
- Costo total stack: ~$18,000/mes
- Costo con equipo (2 FTE): ~$38,000/mes total
Escenario C: Plataforma multiproducto (50K+ usuarios/día)
- Modelos: Mix de propietarios + open source fine-tuned + modelos especializados
- Volumen: 500K+ requests/día con contextos largos
- Costo de inferencia: ~$35,000-$50,000/mes
- Costo total stack: ~$80,000-$120,000/mes
- Costo con equipo (5-8 FTE): ~$150,000-$200,000/mes total
5 estrategias de optimización que funcionan
- Semantic caching (ahorro: 30-40%): Si la misma pregunta (o una semánticamente similar) ya fue respondida, devolver la respuesta cacheada. Implementar con embedding similarity + threshold. Funciona especialmente bien en customer service donde el 60% de las preguntas son recurrentes.
- Model routing inteligente (ahorro: 20-30%): No todas las consultas necesitan el modelo más potente. Un clasificador liviano (reglas + modelo pequeño) rutea queries simples a modelos económicos y reserva el modelo premium para casos complejos. Relación típica: 70% queries resueltas con modelo económico.
- Prompt optimization (ahorro: 15-25%): Prompts más cortos = menos tokens = menos costo. Técnicas: few-shot → zero-shot cuando la accuracy lo permite, eliminación de instrucciones redundantes, compresión de contexto. Cada token ahorrado se multiplica por millones de requests.
- Fine-tuning de modelos pequeños (ahorro: 40-60%): Para tareas específicas, un modelo open source fine-tuned (Llama, Mistral) puede igualar la performance de GPT-4 a una fracción del costo. Requiere inversión inicial en datos de entrenamiento y compute, pero el ROI es claro en 2-3 meses.
- Batching y async processing (ahorro: 10-20%): No todo necesita respuesta en tiempo real. Tareas como análisis de documentos, generación de reportes, y data enrichment pueden procesarse en batch off-peak con descuentos significativos.
La regla del 1:3:10
Una heurística útil para presupuestos ejecutivos: por cada $1 en costo de API del modelo, presupueste $3 en infraestructura total (observabilidad, guardrails, caching, serving) y $10 en equipo humano (desarrollo, operaciones, mejora continua). Si el modelo cuesta $10K/mes, el programa completo cuesta ~$100K-$140K/mes.
Las empresas que presupuestan solo el modelo se sorprenden en el trimestre 2. Las que presupuestan el programa completo toman decisiones informadas desde el día 1.
Conclusión ejecutiva
Los LLMs en producción son una inversión significativa, no un costo marginal. El error más caro no es pagar demasiado por inferencia — es no presupuestar los otros 6 componentes del stack y descubrirlos en producción bajo presión. Con la regla 1:3:10, un framework de optimización progresivo, y métricas de costo por outcome (no por token), los LLMs generan ROI claro. Sin eso, son un pozo sin fondo.