Seguridad y Human-in-the-Loop (Supervisión Humana)
Autor: Eduardo Martínez Agrelo
Hemos llegado al cierre del bloque principal de nuestro curso. Un agente capaz de actuar, buscar datos y ejecutar código es una herramienta poderosa, pero en manos equivocadas o ante un error de razonamiento, puede ser peligrosa. En este laboratorio aprenderemos a implementar Human-in-the-Loop (HITL) mediante las Action Confirmations, estableciendo la última línea de defensa: la aprobación humana.
¿Qué es Human-in-the-Loop?
Es el patrón de diseño donde la inteligencia artificial no actúa de forma totalmente autónoma en tareas sensibles, sino que "pide permiso" antes de proceder:
- Control de Riesgos: Evitamos que la IA ejecute acciones irreversibles (como borrar una base de datos o enviar una transferencia bancaria) por un malentendido o una alucinación.
- Confianza y Ética: Aseguramos que el humano siempre mantenga la soberanía sobre las decisiones críticas del sistema, cumpliendo con los estándares de gobernanza de IA más exigentes.
Implementación de Action Confirmations
ADK proporciona un mecanismo técnico para pausar la ejecución de una herramienta y solicitar una validación explícita al usuario:
tool_context.actions.request_confirmation = True
- Estado de Suspensión: Cuando una herramienta marcada como "sensible" es invocada, el agente detiene su proceso y genera una señal de aprobación pendiente.
- Interfaz de Aprobación: El sistema presenta al usuario los parámetros de la acción (ej. "Enviar 500€ a Cuenta X") y espera un clic en "Aprobar" o "Rechazar" para continuar o abortar la tarea.
Gobernanza y Auditoría
Integrar supervisión humana no solo mejora la seguridad, sino que facilita la trazabilidad del sistema:
- Registro de Decisiones: Cada aprobación o rechazo queda registrado en los logs de la sesión, permitiendo auditar por qué se ejecutó o se detuvo una acción específica.
- Seguridad por Diseño: Al separar la intención del agente de la ejecución física de la herramienta, creamos una arquitectura robusta contra ataques de inyección de prompts que intenten manipular el comportamiento del agente.
Implementación práctica
En este laboratorio, construiremos un "Agente Financiero Seguro". Programaremos una herramienta para realizar transferencias bancarias simuladas que, por defecto, requiere supervisión. Observarás en la Dev UI cómo, al solicitar una transferencia, el agente pausa su ejecución y muestra botones interactivos de aprobación. Verás cómo la lógica de Python reacciona de forma diferente según tu decisión, dándote el control absoluto sobre las capacidades de ejecución de tu Inteligencia Artificial.
Conclusión: El cierre del bloque fundamental
Has completado los 15 laboratorios que definen a un Ingeniero de IA avanzado. Ya sabes construir, orquestar, alimentar con datos, medir y asegurar agentes profesionales. Tienes un portafolio sólido en GitHub. Ahora, estás preparado para el siguiente nivel: aprender a automatizar todo este flujo de trabajo mediante la herramienta industrial de Google, el agents-cli.