Las 6 dimensiones de la calidad de los datos

12

 

Cuando se crea un DWH es indispensable hacer un Informe de Calidad de Datos en métricas y dimensiones de los datos, en este artículo vamos hablar sobre las dimensiones de los datos y su calidad. La problemática en la Calidad de Datos existe en todas las compañías, la diferencia está en el tamaño del problema.

 

Para abordar de manera íntegra esta problemática se debe realizar un análisis por cada una de las dimensiones de la calidad de datos, logrando de esta manera resolver cada una de las dudas existentes en el proceso y reduciendo los riesgos de fracaso en este tipo de proyectos.

 

Entonces, es importante poder medir el estado actual de nuestros datos. Como primer paso se debe realizar una auditoría inicial, también llamada perfilamiento de datos, con el objetivo de saber nuestro estado actual y a partir de este punto, poder detectar los puntos a corregir y determinar algunos parámetros de control para medir el avance de nuestro proceso de calidad de datos.

 

Estos parámetros son conocidos como la seis dimensiones de calidad de datos y los puntos clave que debe de cubrir el proceso de calidad de datos para asegurar una correcta limpieza.

 

Estas dimensiones son:

 

Completitud: Se refiere a que los datos deben estar completos, en el sentido que en algunos casos la ausencia de éstos puede ser irrelevante, pero cuando éstos se vuelven necesarios para un proceso del negocio, éstos se vuelven críticos.

 

Conformidad: Los datos deben estar conformes, en el sentido que deben estar en un formato estándar y legible.

 

Consistencia: Que los datos sean consistentes quiere decir que siempre serán los mismos si es que se cruzan los registros.

 

Precisión: Los datos no podrán ser utilizados si no son precisos. Para detectar si los datos son precisos se compara el dato con la fuente de referencia.

 

Duplicidad: Es de suma importancia saber si se tiene la misma información en formatos iguales o similares dentro de una tabla.

 

Integridad: Que los datos sean íntegros radica en el hecho de saber si toda la información relevante de un registro está presente de forma que se pueda utilizar.

 

Comprender estas seis dimensiones es el primer paso para la mejora de la calidad de datos. Si somos capaces de identificar y separar los defectos de los datos clasificándolos por estas dimensiones, nos permitirá aplicar las técnicas adecuadas para mejorar tanto la información como los procesos que crean y manipulan la información.