Saber que funciona: observabilidad, evaluaciones y costo

Toda la premisa de la automatización es que corre sin ti. Esa misma premisa exige que puedas ver lo que hizo, probar que sigue siendo correcto y saber lo que cuesta — sin vigilarlo.

Última actualización · 30 de junio de 2026

Qué cambió›

30 de junio de 2026Capítulo nuevo — añadido en la reestructuración de junio de 2026.

Todo en este curso ha tratado sobre trabajo que corre sin ti. La trampa es la obvia que nadie quiere afrontar: si corre sin ti, ¿cómo sabes que funciona?

Una automatización que falla a gritos es el caso fácil — te avisa, la arreglas. La que tiene éxito en silencio mientras produce basura es la pesadilla, porque nada te avisa. Un resumidor que empezó a omitir la línea más importante, un agente que lleva una semana “completando” tareas de forma equivocada: para cuando un humano lo nota más abajo, el daño se ha acumulado. Confiar en algo desatendido significa construir las tres cosas que te permiten verlo sin vigilarlo.

Vigilas	Atrapa	Se le escapa
Registros	que algo se ejecutó & dio error	por qué, y a lo largo de muchos pasos
Trazas	el costo, la latencia & la llamada de herramienta de cada paso	si la salida era buena
Evaluaciones	calidad & corrección sobre un conjunto de prueba	sorpresas puntuales en producción en vivo
Alertas	un umbral cruzado, ahora mismo	cualquier cosa para la que no pensaste poner umbral

El primer paso por encima de los registros son las trazas: visibilidad a nivel de paso a lo largo de una ejecución de varios pasos, para que puedas ver qué llamada de herramienta fue lenta, cuál costó más y dónde un agente empezó a girar en bucle. Los registros te dicen que se ejecutó; una traza te cuenta la historia de cómo. El segundo son las evaluaciones — y la idea clave es probar trayectorias completas, no solo las respuestas finales. Para un agente, la elección correcta de herramienta y el camino que tomó importan tanto como la salida; un pequeño conjunto de referencia que ejecutas en cada cambio es lo que impide que una regresión silenciosa llegue a producción. El tercero son los techos de costo & latencia: un presupuesto por ejecución y una latencia P99 sobre la que alertas, más detección de bucles para que un agente que se afana en vano dispare una alarma en lugar de una factura.

✓

Una traza en cada ejecución — costo de paso, latencia y llamadas de herramienta, no solo una línea de registro final.

✓

Un pequeño conjunto de evaluación sobre la trayectoria — ejecútalo en cada cambio, alerta ante una caída.

✓

Un techo de costo & latencia por ejecución, con detección de bucles que detiene una ejecución que se afana en vano.

✓

Una alerta vinculada a la calidad del resultado, no solo a si el proceso salió limpiamente.

Dónde se tuerce

Vigilar solo el código de salida. Una ejecución que “tuvo éxito” — sin error, salida limpia — mientras produce en silencio una salida equivocada es el fallo característico de los sistemas desatendidos, y una marca de verificación verde lo oculta a la perfección. Si solo alertas ante las caídas, estás ciego a la forma más cara en que falla la automatización: con confianza, y puntualmente.

Ponlo en práctica

Toma una automatización en la que ya confías y pregunta: si su salida empezara a estar sutilmente equivocada — sin caerse, solo equivocada — ¿cuánto tardaría en saberlo? Si la respuesta honesta es “un buen rato,” has encontrado el hueco. Añade una evaluación sobre lo que importa y una alerta sobre el resultado, no sobre el código de salida. Esa es la diferencia entre una automatización que esperas que funcione y una que puedes probar que funciona.

Basado en la práctica actual de observabilidad y evaluación de agentes — trazas a nivel de paso, evaluaciones de trayectoria y monitoreo de costo/latencia (LangSmith, OpenTelemetry y los manuales de barreras de protección de 2026).

AnteriorMantener a los agentes sobre rieles