Mantener a los agentes sobre rieles

Un agente que puede actuar por su cuenta también puede fallar por su cuenta. Las barreras de protección, los puntos de control humanos y las condiciones de parada son lo que hace que la autonomía sea segura de lanzar — y Anthropic es directo sobre por qué.

Última actualización · 30 de junio de 2026

Un agente que puede actuar por su cuenta también puede fallar por su cuenta — a velocidad de máquina, mientras duermes. Los rieles son lo que hace que ese poder sea lo bastante seguro para lanzarlo.

La primera lección advirtió que los agentes son impredecibles por naturaleza — deciden sus propios pasos. El peligro no es que un agente sea malicioso; es que actúa rápido, repetidamente y sin un humano en el momento. Un error que una persona comete una vez, un agente puede cometerlo cuatrocientas veces antes de que alguien lo note. El listón moderno no es “evitar que el agente se equivoque alguna vez” — es hacer que cada error sea observable, contenible y recuperable. Tres rieles hacen eso, y la automatización seria usa los tres a la vez.

✓

Barreras de protección — limita lo que puede hacer. No confíes en que el agente elija bien; elimina la elección peligrosa. El privilegio mínimo de la lección de autenticación, apuntado a un agente — solo las herramientas que el trabajo necesita, cada una con alcance ajustado, cada acción con tope (un agente de reembolsos que no puede emitir más de £50). Mantén separados las instrucciones y los datos no confiables, para que una entrada envenenada no pueda reescribir el objetivo.

✓

Puntos de control humanos — una persona en el bucle para las jugadas grandes. Para cualquier cosa consecuente o difícil de deshacer, el agente propone y un humano aprueba — exactamente como Claude Code se pausa antes de una edición arriesgada. El agente hace el trabajo; una persona es dueña del sí irreversible.

✓

Condiciones de parada — un final tajante para el bucle. El bucle de un agente puede correr para siempre, quemando dinero y empeorando las cosas. Ponle tope: un número máximo de iteraciones, un techo de costo, un límite de tiempo — más un interruptor de emergencia que puedas accionar. Cuando llega al tope sin resolver, se detiene y escala en lugar de girar en vano.

Un ejemplo resuelto: el agente de reembolsos

Digamos que dejas que un agente maneje reembolsos. Los tres rieles a la vez: una barrera de protección pone tope a cualquier reembolso individual en £50 — por encima de eso, físicamente no puede. Un punto de control dirige cualquier cosa de £50 a £500 a un humano para un sí. Y una condición de parada dice que si gira más de diez veces sobre un mismo caso sin resolverlo, se detiene y escala. Fíjate en que ninguno de estos confía en que el agente se comporte. Cada uno asume que podría no hacerlo, y hace pequeño el peor caso — esa es toda la jugada.

Dónde se tuerce

Confiar en una buena demo. El agente se comporta de maravilla en las pruebas, así que le das alcance real sin rieles — y la primera entrada rara que se encuentra en producción, actúa sobre ella con confianza y a escala. Los rieles no son un insulto a tu construcción; son la respuesta estándar de ingeniería a cualquier cosa que actúa de forma autónoma. Cuanta más agencia concedes, más importan.

Contén el radio de impacto: cada capa reduce lo que una acción equivocada puede alcanzar — un entorno aislado, una aprobación, límites estrictos y un interruptor de emergencia alrededor del núcleo.

Ponlo en práctica

Toma un agente que de verdad desplegarías y responde la pregunta franca: ¿qué es lo peor que podría hacer en una hora si saliera mal y nadie estuviera mirando? Luego añade un riel de cada tipo para encoger esa respuesta — una barrera de protección para poner tope al daño, un punto de control en el paso irreversible, una condición de parada en el bucle. Cuando el peor caso es pequeño y sobrevivible, estás listo para lanzar. Hasta entonces, no lo estás.

Basado en Anthropic, Building Effective Agents, sobre barreras de protección y supervisión humana, y la práctica de seguridad de agentes de 2025–2026 (privilegio mínimo, contención, interruptores de emergencia).

AnteriorFlujos de trabajo durables: sobrevivir al fallo SiguienteSaber que funciona: observabilidad, evaluaciones y costo