Spark: Limpieza y Calidad (Bronze to Silver) | Curso Spark, Scala y Terraform

Spark: Limpieza y Calidad (Bronze to Silver)

Autor: Eduardo Martínez Agrelo

En el Lab 2 transformamos nuestros archivos crudos a Parquet. Ahora tenemos un formato eficiente, pero los datos siguen conteniendo "ruido": usuarios nulos, sesiones de apenas unos segundos y formatos inconsistentes. Es el momento de construir la Capa Plata (Silver), donde residen los datos limpios, validados y listos para el análisis de negocio.

El poder de Scala: Datasets y Case Classes

En el ecosistema Spark, Python (PySpark) es muy popular, pero en entornos de alta exigencia, Scala ofrece una ventaja de seguridad inigualable. Mientras que los DataFrames de Python son dinámicos y propensos a errores de escritura en tiempo de ejecución, en Scala utilizamos Case Classes:

  • Fuertemente tipado: Al definir una case class StreamEvent, estamos creando un contrato de datos. Si intentas acceder a una columna que no existe o con un tipo de dato erróneo, el código simplemente no compilará.
  • Prevención de errores: Evitamos esos fallos catastróficos que aparecen a las 3 de la mañana en producción. Si el código no compila en tu máquina, no se sube al clúster.

Estrategia de limpieza

La capa Silver no solo es sobre limpiar, sino sobre estandarizar. En este laboratorio aplicaremos:

  • Filtrado lógico: Descartamos registros basura, como canciones reproducidas menos de 30 segundos, que no aportan valor económico ni analítico.
  • Normalización: Estandarizamos campos (ej. convertir nombres de países a mayúsculas) y extraemos información útil (fechas, IDs únicos).
  • Particionamiento: Guardamos los datos limpios en la capa Silver, organizándolos por fecha para optimizar las consultas futuras de los analistas.

Implementación práctica

Veremos cómo transformar nuestros DataSets "broncos" a objetos fuertemente tipados. Escribiremos la lógica para filtrar nulos y limpiar las métricas de reproducción, asegurando que cada fila en la capa Plata sea un dato de alta calidad.

Conclusión: Calidad de datos ante todo

Al terminar este laboratorio, habrás garantizado la integridad de tu pipeline. La capa Silver es la base sobre la que los departamentos de negocio tomarán decisiones. Has aprendido que un Data Engineer no solo mueve datos, sino que garantiza que los datos sean coherentes y confiables.

Newsletter GCP
¿Quieres estar al día con las últimas novedades de Google Cloud Platform? ¡Suscríbete y no te pierdas nada!