[{"data":1,"prerenderedAt":29},["ShallowReactive",2],{"article-data-curso-gcp-google-adk-14":3},{"content":4,"date":5,"image":6,"sideArticles":7},"\u003C!DOCTYPE html>\r\n\u003Chtml lang=\"es\">\r\n\r\n\u003Chead>\r\n    \u003Cmeta charset=\"UTF-8\">\r\n    \u003Cmeta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">\r\n    \u003Cmeta name=\"description\"\r\n        content=\"Laboratorio 14: Aprende a realizar evaluaciones sistemáticas (Evals) de tus agentes de IA. Crea datasets de prueba y mide la precisión de forma científica en ADK.\">\r\n    \u003Cmeta name=\"keywords\"\r\n        content=\"Evals, Evaluación IA, Métricas de Calidad, ADK, Accuracy, Test Sets, Benchmark, Python, Ingeniería de Prompts\">\r\n    \u003Cmeta name=\"author\" content=\"Eduardo Martínez Agrelo\">\r\n    \u003Ctitle>Evaluación Sistemática (Evals) | Curso Agentes IA\u003C/title>\r\n    \u003Cstyle>\r\n        body {\r\n            font-family: sans-serif;\r\n            line-height: 1.6;\r\n        }\r\n\r\n        h1,\r\n        h2,\r\n        h3 {\r\n            color: #333;\r\n        }\r\n\r\n        ul {\r\n            list-style-type: disc;\r\n            margin-left: 20px;\r\n        }\r\n\r\n        code {\r\n            background-color: #f4f4f4;\r\n            padding: 2px 5px;\r\n            border-radius: 3px;\r\n            font-family: monospace;\r\n        }\r\n    \u003C/style>\r\n\u003C/head>\r\n\r\n\u003Cbody>\r\n    \u003Ch1>Evaluación Sistemática (Evals: Midiendo la Precisión)\u003C/h1>\r\n\r\n    \u003Cp>\u003Cstrong>Autor:\u003C/strong> \u003Ca href=\"https://www.youtube.com/@EduardoMartinezAgrelo\" target=\"_blank\">Eduardo Martínez\r\n            Agrelo\u003C/a>\u003C/p>\r\n\r\n    \u003Cp>En el desarrollo de software tradicional, los tests unitarios aseguran que el código es correcto. En el mundo de\r\n        la IA, donde las respuestas son probabilísticas, no basta con probar el chat un par de veces. En este\r\n        laboratorio aprenderemos a implementar \u003Cstrong>Evals\u003C/strong> (Evaluaciones Sistemáticas), la metodología que\r\n        nos permite pasar del \"me parece que funciona\" al \"este agente tiene un 95% de precisión\".\u003C/p>\r\n\r\n    \u003Ch2>¿Por qué evaluar sistemáticamente?\u003C/h2>\r\n\r\n    \u003Cp>Los modelos de lenguaje son inherentemente no deterministas. Un pequeño cambio en el sistema puede mejorar una\r\n        respuesta pero romper otras tres. La evaluación sistemática resuelve este problema:\u003C/p>\r\n    \u003Cul>\r\n        \u003Cli>\u003Cstrong>Dataset de Oro (Gold Dataset):\u003C/strong> Creamos un conjunto de preguntas y respuestas esperadas que\r\n            representan el comportamiento ideal del agente.\u003C/li>\r\n        \u003Cli>\u003Cstrong>Detección de Regresiones:\u003C/strong> Al ejecutar los tests automáticamente, detectamos si una\r\n            actualización en las instrucciones o en el modelo ha empeorado el rendimiento global.\u003C/li>\r\n    \u003C/ul>\r\n\r\n    \u003Ch2>Automatización con ADK Eval\u003C/h2>\r\n\r\n    \u003Cp>ADK proporciona herramientas integradas para automatizar este proceso sin necesidad de programar complejos\r\n        frameworks de testing:\u003C/p>\r\n    \u003Cp>\u003Ccode>adk eval mi_agente --config tests.yaml\u003C/code>\u003C/p>\r\n    \u003Cul>\r\n        \u003Cli>\u003Cstrong>Comparación Automática:\u003C/strong> El sistema envía las entradas del dataset al agente y compara su\r\n            salida con la respuesta esperada de forma instantánea.\u003C/li>\r\n        \u003Cli>\u003Cstrong>Métrica de Exactitud (Accuracy):\u003C/strong> Obtenemos un informe porcentual de aciertos y fallos,\r\n            dándonos una brújula objetiva para decidir si el agente está listo para producción.\u003C/li>\r\n    \u003C/ul>\r\n\r\n    \u003Ch2>Iteración basada en datos\u003C/h2>\r\n\r\n    \u003Cp>La evaluación no es un paso final, sino un ciclo continuo de mejora:\u003C/p>\r\n    \u003Cul>\r\n        \u003Cli>\u003Cstrong>Identificación de Casos Borde:\u003C/strong> Los Evals nos muestran exactamente en qué tipo de preguntas\r\n            falla el agente (ej. formatos de fecha, cálculos específicos), permitiéndonos ajustar el prompt con\r\n            precisión quirúrgica.\u003C/li>\r\n        \u003Cli>\u003Cstrong>Benchmark de Modelos:\u003C/strong> Podemos usar el mismo dataset para comparar si un cambio de Gemini\r\n            Flash a Gemini Pro realmente justifica el aumento de coste basándonos en resultados medibles.\u003C/li>\r\n    \u003C/ul>\r\n\r\n    \u003Ch2>Implementación práctica\u003C/h2>\r\n\r\n    \u003Cp>En este laboratorio, configuraremos una batería de pruebas para un agente de extracción de datos técnicos.\r\n        Crearemos un archivo de configuración \u003Ccode>YAML\u003C/code> con diversos casos de prueba, incluyendo \"casos trampa\"\r\n        diseñados para forzar el error del modelo. Ejecutaremos el comando de evaluación y analizaremos el reporte de\r\n        resultados. Observarás cómo un fallo en los tests nos obliga a refinar nuestras instrucciones hasta lograr una\r\n        consistencia del 100%, elevando tu nivel de rigor técnico al estándar de la industria.\u003C/p>\r\n\r\n    \u003Ch2>Conclusión: La brújula del Ingeniero de IA\u003C/h2>\r\n    \u003Cp>Has aprendido que en producción, el rigor científico vence a la intuición. Ya sabes cómo medir la calidad de tus\r\n        agentes de forma objetiva. Con la precisión garantizada, el paso final es asegurar la integridad del sistema\r\n        mediante flujos de Seguridad y Supervisión Humana.\u003C/p>\r\n\u003C/body>\r\n\r\n\u003C/html>","May 12, 2026","https://storage.googleapis.com/mp-blog/images/curso-gcp-google-adk-14.jpg",[8,14,19,24],{"id":9,"title":10,"description":11,"image":12,"date":13},"curso-gcp-apache-spark-01","Spark: Infraestructura como Código con Terraform | Curso Spark, Scala y Terraform","Aprende a desplegar clústeres de Big Data profesionalmente. Domina Terraform para crear infraestructura como código (IaC) en Google Cloud y automatiza tu entorno de Dataproc para Spark.","https://storage.googleapis.com/mp-blog/images/curso-gcp-apache-spark-01.jpg","March 12, 2026",{"id":15,"title":16,"description":17,"image":18,"date":13},"curso-gcp-apache-spark-02","Spark: Ingesta (Raw to Bronze) y Formatos Columnares | Curso Spark, Scala y Terraform","Domina la ingesta de datos con Spark. Aprende a convertir JSONs pesados en formato Parquet, optimiza tu almacenamiento en un 85% y domina los esquemas estrictos con Scala.","https://storage.googleapis.com/mp-blog/images/curso-gcp-apache-spark-02.jpg",{"id":20,"title":21,"description":22,"image":23,"date":13},"curso-gcp-apache-spark-03","Spark: Limpieza y Calidad (Bronze to Silver) | Curso Spark, Scala y Terraform","Domina la limpieza de datos en Spark. Aprende a usar Scala para implementar la capa Silver (Plata) de tu arquitectura Medallón, utilizando Case Classes para mayor seguridad.","https://storage.googleapis.com/mp-blog/images/curso-gcp-apache-spark-03.jpg",{"id":25,"title":26,"description":27,"image":28,"date":13},"curso-gcp-apache-spark-04","Spark: Analítica Avanzada (Silver to Gold) | Curso Spark, Scala y Terraform","Domina el Análisis Avanzado con Spark. Aprende a calcular métricas de negocio con Window Functions y a extraer el Top 3 de canciones por país y día para tu capa Gold.","https://storage.googleapis.com/mp-blog/images/curso-gcp-apache-spark-04.jpg",1778604634317]