Cloud Composer: Infraestructura Base | Curso Composer GCP

Cloud Composer: Infraestructura Base (Hello Airflow)

Autor: Eduardo Martínez Agrelo

Bienvenidos al punto de partida de nuestra arquitectura de datos. Antes de mover un solo byte, necesitamos un director de orquesta. En el ecosistema de Google Cloud, ese papel lo cumple Cloud Composer, la versión gestionada de Apache Airflow que nos permite despreocuparnos de la administración de servidores y centrarnos en la lógica de nuestros pipelines.

¿Qué es Cloud Composer?

Cloud Composer es un servicio de orquestación de flujos de trabajo totalmente gestionado, construido sobre el motor de Apache Airflow. Su arquitectura se apoya en Google Kubernetes Engine (GKE):

  • Escalabilidad: Ajusta los recursos de los workers según la carga de trabajo de tus DAGs.
  • Integración Nativa: Conexión simplificada con BigQuery, Dataflow, Cloud Storage y Pub/Sub mediante operadores oficiales.

Infraestructura como Código (IaC) con Terraform

En este curso no utilizaremos la consola web para crear recursos. Como profesionales de datos, definiremos nuestro entorno mediante Terraform. Esto nos garantiza:

resource "google_composer_environment" "my_env"

Utilizar IaC nos permite versionar nuestra infraestructura en GitHub, replicar entornos de desarrollo y producción en minutos y, lo más importante, destruir todo el entorno con un solo comando para optimizar costes cuando no estemos trabajando.

Anatomía de tu primer DAG

Un DAG (Directed Acyclic Graph) es el corazón de Airflow. En este primer laboratorio, definiremos una estructura básica utilizando el EmptyOperator para marcar hitos y el PythonOperator para ejecutar lógica personalizada. Aprenderás conceptos clave como:

  • Schedule Interval: Definir cuándo y con qué frecuencia se ejecuta tu tubería.
  • Dependencies: Establecer el orden de ejecución mediante el operador bitwise (>>).

Implementación práctica

Durante la sesión práctica, lanzaremos nuestro plan de Terraform para levantar el clúster. Una vez que el entorno esté "Ready", importaremos nuestro archivo Python al bucket de DAGs asociado. Verás cómo la interfaz web de Airflow reconoce automáticamente el nuevo grafo y podrás disparar manualmente tu primera ejecución, verificando en los logs que la comunicación entre Cloud Composer y la infraestructura de Google es exitosa.

Conclusión: Cimientos de un Data Engineer

Has superado la etapa de configuración inicial. Tienes un entorno de Cloud Composer funcional y has desplegado tu primer DAG bajo las mejores prácticas de la industria. Ya no eres un usuario manual; ahora eres un ingeniero que domina la infraestructura. El siguiente paso es dotar a este orquestador de datos reales mediante sensores y generadores batch.

Newsletter GCP
¿Quieres estar al día con las últimas novedades de Google Cloud Platform? ¡Suscríbete y no te pierdas nada!