Cloud Monitoring: Uptime Checks y Alertas con Terraform | Curso Google Cloud Associate Cloud Engineer

Observabilidad y Fiabilidad: Cloud Monitoring y Uptime Checks

Autor: Eduardo Martínez Agrelo

Una aplicación caída de la que nadie se entera hasta que un cliente se queja es un fracaso de ingeniería. Como Associate Cloud Engineer, tu responsabilidad no termina al desplegar el código; debes asegurar que el servicio sea fiable. Cloud Monitoring (parte de la Google Cloud Observability Suite) es la herramienta que nos permite vigilar la salud de nuestra infraestructura. En este ejercicio, aprenderemos a configurar un sistema de vigilancia activa que nos avise automáticamente si nuestra web deja de responder.

¿Qué es un Uptime Check? Monitoreo de "Caja Negra"

Existen dos formas principales de monitorear un sistema:

  • Monitoreo de Caja Blanca: Basado en métricas internas (uso de CPU, RAM, logs de la aplicación).
  • Monitoreo de Caja Negra (Uptime Checks): Basado en el comportamiento externo. Google envía peticiones de prueba desde servidores repartidos por todo el mundo hacia tu IP o URL para verificar si el servicio está vivo.

Para el examen, recuerda: El Uptime Check es la prueba definitiva de disponibilidad desde la perspectiva del usuario final.

Anatomía de una Alerta

Detectar que algo falla es el primer paso, pero el segundo es notificarlo. El flujo de trabajo en Cloud Monitoring sigue este esquema:

  1. Métrica o Condición: El Uptime Check falla (ej. no devuelve un código 200 OK en 10 segundos).
  2. Política de Alerta (Alert Policy): Define cuándo se considera que hay un incidente (ej. "si el check falla en al menos 2 regiones simultáneamente").
  3. Canal de Notificación: Donde se envía el aviso. Puede ser un correo electrónico, un mensaje de Slack, un SMS o incluso un Webhook que dispare una Cloud Function para intentar arreglar el problema automáticamente.

Uptime Check vs. Health Check de MIG

Este es un punto de confusión común en la certificación ACE:

  • Health Check (MIG): Es una prueba interna dentro de tu red VPC. Sirve para que el grupo de instancias sepa si debe reiniciar una VM específica.
  • Uptime Check (Monitoring): Es una prueba externa desde el internet público. Sirve para medir la disponibilidad global y alertar a los humanos.

Implementación con Terraform: google_monitoring_uptime_check_config

En este ejercicio, utilizaremos Terraform para crear un chequeador HTTP persistente. Configuraremos:

  • Frecuencia: Cada cuánto tiempo Google probará nuestra web (ej. cada 60 segundos).
  • Regiones de origen: Desde qué partes del mundo queremos que se realicen las pruebas.
  • Monitored Resource: Vincularemos el check a la IP pública de la instancia que creamos en los módulos anteriores.

Conclusión: Proactividad ante el Fallo

Al finalizar este ejercicio, habrás configurado un sistema que nunca duerme. Has aprendido que la fiabilidad de un sistema cloud se basa en la capacidad de detectar incidentes antes de que afecten masivamente a los usuarios, permitiéndote reaccionar de forma rápida y profesional.

Newsletter GCP
¿Quieres estar al día con las últimas novedades de Google Cloud Platform? ¡Suscríbete y no te pierdas nada!