Los datos sucios son aquellos que contienen errores, imprecisiones o inconsistencias y, según estudios respaldados por Harvard Business Review, solo en las compañías norteamericanas provocan pérdidas anuales por decenas de trillones de dólares.
En cualquier empresa, sin importar su envergadura, rubro o trayectoria, siempre existe una relación directamente proporcional entre la inteligencia de sus decisiones y la calidad de sus datos. En un contexto como el actual, donde la producción masiva de datos se acelera de forma colosal, procurar la limpieza constante de las bases o almacenes de datos, lejos de ser una opción, constituye una necesidad. De esta forma, cuanto más rigurosa y confiable sea la información disponible en una empresa, más lúcidas serán sus decisiones y más efectivas sus estrategias.
El Data Cleansing es el proceso de identificación, corrección, sustitución y/o eliminación de datos incorrectos, ambiguos, incompletos, redundantes o intrascendentes en una determinada base de datos. Esta metodología, también conocida como Data Scrubbing, permite incrementar la coherencia, veracidad, confiabilidad y valor de los datos, para que puedan ser debidamente procesados. Se trata de una operación que está en constante evolución e involucra tecnologías de última generación como Big Data, Inteligencia Artificial y Machine Learning, entre otras.
Si bien es cierto que los parámetros para determinar el grado de pureza o pulcritud de los datos es un tema que aún despierta controversia entre los especialistas, las preguntas cardinales que suelen utilizarse al respecto son las siguientes:
A su vez, el Data Cleansing ofrece múltiples beneficios para el sector empresarial. Algunos de los más destacados son los siguientes:
Ciertamente, para que el Data Cleansing resulte efectivo, su implementación no debe realizarse de manera aislada sino como parte de la cultura Data Driven asumida por la empresa.