Pero ¿por qué es importante tener sistemas con buena calidad de datos? Porque los datos son activos estratégicos utilizados para la toma de decisiones. Entonces decidir en base a datos erróneos, inválidos, no integros, incompletos, duplicados, entre otros problemas tiene impacto. A continuación, se detallan algunas de las principales consecuencias de tener una mala calidad de datos:
- La mayoría de los proyectos de integración de datos se extienden o fracasan directamente
- Datos incorrectos/incompletos son la causa del fracaso de proyectos de Business Intelligence y CRM
- Mucho retrabajo. Incremento en los costos
- Falta de confianza del consumidor de los datos
- 25% del tiempo se emplea en clarificar los datos malos
- Pérdida de oportunidades
- La baja calidad de datos tiene un costo anual alto para las empresas
- Arreglar los defectos no detectados en el momento pueden costar entre 10 y 100 veces más
Asimismo, para comenzar a mejorar la calidad de datos primero deben poder contestarse preguntas relacionadas con la información disponible, esto suele ser un gran desafío para muchas empresas:
- ¿Qué fuentes de datos existen en la empresa?
- ¿Cómo se relacionan cada una con la otra?
- ¿Qué es lo que hay exactamente en las fuentes?
- ¿Cómo están organizados?
- ¿Cómo está la calidad de los datos?
- ¿Hay datos faltantes?
- ¿Hay datos duplicados?
- ¿Cómo se monitorean los cambios en la calidad en las fuentes a lo largo del tiempo?
Cómo mejorar la calidad de los datos
Para hacer frente a estos desafíos y mejorar la calidad de los datos se recomienda adoptar una metodología de calidad de datos que incluya tanto el perfilado inicial (diagnóstico inicial con el estado actual de la calidad) como perfilados periódicos a modo de control, para contribuir con un monitoreo continuo de la calidad a lo largo del tiempo, pudiendo tener medidas objetivas de las mejoras o deterioros.
Cuando hablamos de perfilado, el mismo incluye distintos tipos de análisis, a nivel de columna, de tabla, de tablas cruzadas para evaluar la integridad referencial, así como también reglas de datos. Una vez que obtengamos una foto clara de cómo está la calidad de los datos, es necesario identificar cuáles son las causas raíz de los problemas de calidad encontrados.
Identificar las causas raíz de los problemas de calidad permitirá encarar iniciativas de limpieza y enriquecimiento de datos, ya sea de única vez o en forma recurrente, directamente sobre los sistemas orígenes del dato (en caso de ser posible) o en el proceso de transformación y carga de los sistemas analíticos.
Como se puede observar, para asegurar una correcta calidad de los datos es necesario realizar una gestión continua, definiendo niveles de aceptación para cada dato, así como también puntos de control.