¿Qué es Data Lake y cómo mejorar la calidad de Data Lake?

48

Para crear productos de datos, se debe poder recopilar puntos de datos de millones de usuarios y procesar los resultados casi en tiempo real. Hoy en día, muchas organizaciones están luchando con la calidad de sus datos. Los problemas de calidad de datos (DQ) pueden surgir de varias maneras. Aquí están las causas comunes de la mala calidad de los datos:

  • Fuentes de datos múltiples: las fuentes múltiples con los mismos datos pueden producir duplicados; Un problema de consistencia.
  • Recursos informáticos limitados: la falta de recursos informáticos y/o digitalización suficientes puede limitar la accesibilidad de los datos relevantes; Un problema de accesibilidad.
  • Necesidades cambiantes de datos: los requisitos de datos cambian de forma continua debido a las nuevas estrategias de la compañía o la introducción de nuevas tecnologías; Un problema de relevancia.
  • Diferentes procesos utilizando y actualizando los mismos datos; Un problema de consistencia.

En este blog, vamos a analizar el mundo del Data Lake y su importancia. Además, veremos algunos de los problemas inherentes como la gestión de la calidad.

 

¿Qué es el Data Lake?

Data Lake es un lugar centralizado, como un lago, que le permite almacenar una gran cantidad de datos sin procesar en su formato nativo, estructurado y no estructurado, en cualquier escala. Además, puede almacenar sus datos tal como están, sin tener que estructurar primero los datos o definirlos hasta que sean necesarios. Su propósito es crear paneles de información y visualizaciones, análisis en tiempo real y aprendizaje automático. Además, esto puede guiar mejores decisiones publicitarias programáticas.

En su forma extrema, un Data Lake ingiere datos en su estado original sin procesar, directamente de las fuentes de datos. Esto ocurre sin ningún tipo de limpieza, estandarización, remodelación o transformación. Estas y otras disciplinas de manejo de datos sacrosantos son aplicables sobre la marcha. Además, ayuda a habilitar consultas ad hoc, exploración de datos y análisis orientados al descubrimiento. La ingesta temprana de datos significa que los datos operativos están presentes y se ponen a disposición de los analíticos lo antes posible. Además, el estado sin procesar de los datos garantiza que los analistas de datos, científicos de datos y usuarios similares tengan suficiente materia prima. Pueden reutilizarse en muchos conjuntos de datos diversos, según sea necesario mediante preguntas analíticas no anticipadas.

 

Componentes de Data Lake

Es una plataforma que combina una serie de tecnologías avanzadas y complejas de almacenamiento y análisis de datos.

Para simplificar, podríamos agrupar los componentes de un lago de datos en cuatro categorías, que representan las cuatro etapas de la administración de datos:

  • Ingestión y almacenamiento de datos, es la capacidad de adquirir datos en tiempo real o por lotes, y también la capacidad de almacenar datos y hacerlos accesibles.
  • Procesamiento de datos, es la capacidad de trabajar con datos sin procesar para que estén listos para ser analizados a través de procesos estándar. También incluye la capacidad de las soluciones de ingeniería que extraen valor de los datos, aprovechando los procesos periódicos y automatizados que resultan de las operaciones de análisis.
  • Análisis de datos, es la creación de módulos que extraen información de datos de una manera sistemática; Esto puede ocurrir en tiempo real o por medio de procesos que se ejecutan periódicamente.
  • Integración de datos, es la capacidad de conectar aplicaciones a la plataforma; En primer lugar, las aplicaciones deben permitir consultar el Data Lake para extraer los datos en el formato correcto, en función del uso que desee hacer de ellos.

 

¿Por qué usar Data Lake?

1. Indización de datos

Data Lakes le permite almacenar datos relacionales (una colección de elementos de datos organizados como un conjunto de tablas descritas formalmente desde las cuales se puede acceder o reensamblar datos de muchas maneras diferentes sin tener que reorganizar las tablas de la base de datos). Bases de datos operativas (datos recopilados en tiempo real), y datos de aplicaciones de línea de negocio, y datos no relacionales como aplicaciones móviles, dispositivos conectados y redes sociales. También le brindan la capacidad de comprender qué datos se encuentran en el lago a través del rastreo, la catalogación y la indexación de datos.

2. Analytics

Data Lake permite que los científicos de datos, los desarrolladores de datos y los analistas de operaciones accedan a los datos con su elección de marcos analíticos y herramientas. Esto también incluye marcos de datos de fuente abierta como Apache Hadoop, Presto y Apache Spark, y ofertas comerciales de almacenes de datos y proveedores de inteligencia empresarial. Data Lake le permite ejecutar Analytics sin la necesidad de mover sus datos de un sistema a otro.

3. Aprendizaje automático

Data Lake permitirá a las organizaciones generar diferentes tipos de información operativa y de marketing. Incluye informes sobre datos históricos y aprendizaje automático en los que los modelos producen pronósticos y predicciones.

4. Mejor interacción con el cliente

Un Data Lake puede combinar los datos de los clientes de una plataforma de CRM con el análisis de datos de las redes sociales, así como una plataforma de marketing que incluye el historial de compras para que la empresa pueda comprender a las audiencias más rentables, la raíz de la rotación de clientes y lo que las promociones o recompensas podrían aumentar la lealtad.

El desafío con Data Lake

Es la incapacidad de los analistas para determinar la calidad de los datos porque no se ha realizado un control exhaustivo. Además, no hay forma de utilizar la información de otros que hayan trabajado con los datos, ya que no hay una explicación del linaje de hallazgos de analistas anteriores. Finalmente, uno de los mayores riesgos de los lagos de datos es la seguridad y el control de acceso. Los datos se pueden colocar en un lago sin ningún tipo de supervisión, y algunos de los datos pueden contener requisitos de privacidad y reglamentarios que otros datos no.

 

Maneras de mejorar la calidad en Data Lake

1. Uso de Machine Learning y NLP.

Machine Learning puede cambiar el juego porque puede capturar el conocimiento tácito de las personas que mejor conocen los datos, y luego convertirlos en algoritmos, que se pueden usar para automatizar el procesamiento de datos a gran escala. Esta es exactamente la forma en que Talend está aprovechando el aprendizaje automático de Spark, para aprender de los administradores de datos durante la comparación de datos y la deduplicación de las muestras de datos, y luego aplicarlo a gran escala de datos para miles de millones de registros.

2. Establecer los estándares de calidad de datos ágiles.

Para que las empresas aprovechen al máximo sus proyectos de transformación digital y creen un lago de datos ágil, deben diseñar procesos de calidad de datos desde el principio. Las organizaciones deben centrarse en estandarizar lo siguiente para mantener la calidad de big data

  1. Roles   – Identificar roles incluyendo administradores de datos y usuarios de datos
  2. Descubrimiento   – Comprenda de dónde provienen los datos, a dónde se dirige y en qué forma se encuentra. Céntrese primero en limpiar sus datos más valiosos y más utilizados
  3. Normalización   – Validar, limpiar y transformar datos. Agregue metadatos temprano para que los humanos y las máquinas puedan encontrar los datos. Identifique y proteja los datos personales y privados de la organización con el enmascaramiento de datos.
  4. Reconciliación   – Verificar que los datos hayan sido migrados correctamente.
  5. Autoservicio   – Agilice la calidad de los datos al permitir que las personas que conocen mejor los datos limpien sus datos.
  6. Automatizar   – Identificar dónde puede ayudar el aprendizaje automático en el proceso de calidad de datos, como la deduplicación de datos
  7. Monitorear y Gestionar   – Obtenga retroalimentación continua de los usuarios, elabore métricas de medición de calidad de datos para mejorar
3. Emplear marcos de gestión de calidad de datos.

Otra categoría de marcos se centra en la madurez de los procesos de gestión de la calidad de los datos. Su objetivo es evaluar el nivel de madurez de la gestión de DQ para comprender las mejores prácticas en organizaciones maduras e identificar áreas de mejora. Los ejemplos populares de dichos marcos incluyen la Gestión de la calidad de los datos total (TDQM), la Integración del modelo de madurez de la capacidad (CMMI), los Objetivos de control para la información y la tecnología relacionada (CobiT), la Biblioteca de infraestructura de tecnología de la información (ITIL) y Six Sigma.

 

Baesens-graphic march bdq 2018 illustration

 

Como ejemplo, podemos tomar el framework TDQM.

Un ciclo TDQM consta de cuatro pasos, Definir, Medir, Analizar y Mejorar.

 

El paso de definir identifica las dimensiones de calidad de datos pertinentes.

Uno puede cuantificarlos usando métricas en el paso Medir. Algunas métricas de ejemplo son el porcentaje de registros de clientes con la dirección incorrecta (precisión), el porcentaje de registros de clientes con fecha de nacimiento faltante (integridad) o un indicador que especifica la última actualización del cliente. 

El paso Analizar intenta identificar la causa raíz de los problemas de calidad de los datos. Remediamos los problemas anteriores en el paso de mejora. Las acciones de ejemplo podrían ser la verificación periódica y automática de las direcciones de los clientes, la adición de una restricción que hace que la fecha de nacimiento sea un campo de datos obligatorio y la generación de alertas cuando no se actualizan los datos de los clientes en 6 meses.

Resumen

Cada vez más compañías están experimentando con lagos de datos, con la esperanza de capturar ventajas inherentes en los flujos de información que son fácilmente accesibles independientemente de la plataforma y el caso de negocios y que cuestan menos para almacenar los datos en los almacenes tradicionales. Sin embargo, al igual que con cualquier implementación de nueva tecnología, las compañías deberán volver a imaginar los sistemas, procesos y modelos de gobierno. Además, si la mejora real de la calidad de los datos no es una opción a corto plazo por razones de restricciones técnicas o prioridades estratégicas, a veces es una solución parcial para anotar los datos con información explícita sobre su calidad. Dichos metadatos de calidad de datos se pueden almacenar en el catálogo, posiblemente con otros metadatos.