Configuración y "Declaraciones"
Autor: Eduardo Martínez Agrelo
Bienvenidos al inicio de nuestro recorrido para convertirnos en expertos en Dataform. En este primer laboratorio, sentaremos las bases de nuestro entorno de trabajo en Google Cloud. Configurar correctamente el proyecto es vital, ya que será el esqueleto sobre el cual construiremos toda nuestra infraestructura de datos.
ELT vs ETL: Cambiando la mentalidad
Antes de escribir la primera línea de código, debemos entender el paradigma en el que nos movemos. A diferencia de las herramientas tradicionales de ETL (Extract, Transform, Load), Dataform es una herramienta ELT:
- Extract & Load: Asumimos que los datos ya residen en nuestro Data Warehouse (BigQuery).
- Transform: Aquí es donde Dataform brilla. Nosotros nos encargamos de la lógica de transformación directamente sobre BigQuery, aprovechando su potencia de cómputo.
El concepto de "Declarations" (Fuentes)
Dataform no adivina qué tablas tienes en tu proyecto. Para empezar a trabajar, necesitamos utilizar archivos de tipo declaration. ¿Por qué es esto obligatorio?
- Definición del DAG: Al declarar nuestras tablas base, creamos el primer eslabón de nuestro Grafo Acíclico Dirigido (DAG).
- Seguridad: Si una tabla origen desaparece o cambia de nombre, Dataform nos avisará inmediatamente, evitando que nuestros modelos fallen silenciosamente.
- Trazabilidad: Permite que Dataform entienda el linaje de los datos desde el momento en que entran al proyecto.
Implementación práctica
En este laboratorio, configuraremos nuestro espacio de trabajo y declararemos nuestras tres tablas fundamentales: users, products y orders. Recuerda que, para un flujo de trabajo profesional, es fundamental realizar el commit de estos cambios a tu repositorio de GitHub.
Al finalizar este laboratorio, habrás establecido la "fuente de la verdad" para tu proyecto y estarás listo para comenzar con la capa de limpieza (Staging) en el siguiente nivel.
Conclusión: El primer eslabón
El Lab 1 puede parecer sencillo, pero es la base de la estabilidad. Al declarar tus fuentes correctamente, garantizas que tu arquitectura sea robusta y documentada. Has dado el primer paso para dominar Dataform y dejar atrás el caos de los scripts SQL sueltos.