Logotipo de Zephyrnet

Gestión de datos faltantes en Analytics – DATAVERSITY

Fecha:

Hoy en día, los directorios y ejecutivos corporativos comprenden la importancia de los datos y el análisis para mejorar el desempeño empresarial. Sin embargo, la mayoría de los datos en las empresas son de mala calidad, de ahí que la mayoría de los datos y análisis fallen. Para mejorar la calidad de los datos, más del 80% del trabajo en proyectos de análisis de datos se centra en ingeniería de datos. La ingeniería de datos es la extracción, limpieza, enriquecimiento, transformación, validación e ingesta (y gobernanza) de datos de calidad en el sistema consolidado, comúnmente conocido como almacenamiento de datos (o data mart o lago de datos). Los datos del almacén de datos suelen ser el sistema de registro del que los científicos de datos obtienen conocimientos. Las actividades típicas de ingeniería de datos incluyen eliminar duplicados y valores innecesarios, ingerir nuevos registros y atributos, transformar valores de datos (incluida la normalización y estandarización) y, finalmente, manejar los datos faltantes.

Proceso de ingeniería de datos

Los datos faltantes se definen como el valor que no se captura ni almacena para una variable, atributo o campo de datos específico. Los datos faltantes, perdidos o incompletos presentan varios problemas para la empresa, tales como: 

  • Reducir la utilidad y relevancia de los datos para operaciones, cumplimiento y análisis.
  • Reducir el poder estadístico de los insights derivados. El poder estadístico o la sensibilidad es la probabilidad de que una prueba de significancia detecte un efecto cuando lo hay.
  • Provocar sesgos en los conocimientos derivados. El sesgo de datos ocurre cuando el conjunto de datos es inexacto y no representa a toda la población. Esto, a su vez, puede conducir a respuestas incompletas y resultados sesgados. 

Categorías de datos faltantes

Los datos faltantes, técnicamente conocidos como NULL, indican la falta de un valor. Los datos faltantes pueden clasificarse en tres categorías principales:

  1. Faltan completamente al azar (MCAR): aquí, faltan datos en todas las observaciones. Por ejemplo, la dirección de correo electrónico del cliente falta en todos los registros del cliente.
  2. Missing Not at Random (MNAR): Los datos faltantes tienen una estructura o patrón definido. Por ejemplo, faltan valores de ingresos para la categoría de estudiante de los registros de clientes.
  3. Desaparecido al azar (MAR): aquí, faltan datos en relación con los datos observados. Los datos faltan aleatoriamente y no hay ningún patrón en los datos faltantes. Por ejemplo, la fecha de nacimiento del cliente falta en el 12% de los registros de clientes.

Soluciones para datos faltantes en análisis

Entonces, ¿cuáles son las soluciones para abordar las categorías de datos faltantes de MCAR, MNAR y MAR? Básicamente, la solución para los datos faltantes puede dividirse en tres categorías principales:

  1. Para abordar los problemas relacionados con MCAR, la solución es una digitalización mejorada, incluida la implementación de tecnologías de captura de datos como el reconocimiento óptico de caracteres (OCR), el procesamiento inteligente de documentos (IDP), códigos de barras, códigos QR, web scraping y más. Sin embargo, todas las soluciones digitales deben complementarse con la formación de los usuarios para una mejor adopción.
  2. Para abordar problemas relacionados con MNAR, la solución consiste en soluciones mejoradas de gestión de datos, como gestión de datos maestros (MDM), métodos de integración de datos como ETL (extracción/transformación/carga) y EAI (integración de aplicaciones empresariales), gobernanza de datos y más. . El objetivo de la gestión de datos es mejorar la confiabilidad, la precisión, la seguridad y el cumplimiento, y reducir los costos.
  3. Para abordar cuestiones relacionadas con MAR, las soluciones pueden implicar métodos de imputación de datos. La imputación es el proceso de reemplazar datos faltantes con valores sustituidos. Los métodos comunes de imputación de datos incluyen la interpolación de Langrage, los algoritmos de interpolación hacia adelante y hacia atrás de Gregory Newton y la regresión.

Técnicas de imputación de datos MAR

Missing at Random (MAR) es una situación de datos faltantes muy común que encuentran los científicos de datos y los ingenieros de aprendizaje automático. Esto se debe principalmente a que los problemas relacionados con MCAR y MNAR los maneja el departamento de TI, y los problemas de datos los aborda el equipo de datos. La imputación de datos MAR es un método para sustituir los datos faltantes por un valor adecuado. Algunos métodos de imputación de datos comúnmente utilizados para MAR son:

  • En la imputación hot-deck, se imputa un valor faltante a partir de un registro seleccionado al azar proveniente de un conjunto de registros de datos similares. En la imputación hot-deck, las probabilidades de seleccionar los datos se suponen iguales debido a la función aleatoria utilizada para imputar los datos. 
  • En la imputación en frío, la función aleatoria no se utiliza para imputar el valor. En su lugar, se utilizan otras funciones, como la media aritmética, la mediana y la moda.
  • Con la imputación de datos de regresión, por ejemplo, regresión lineal múltiple (MLR), los valores de las variables independientes se utilizan para predecir los valores faltantes en la variable dependiente mediante el uso de un modelo de regresión. Aquí, primero se deriva el modelo de regresión, luego se valida el modelo y finalmente se predicen e imputan los nuevos valores, es decir, los valores faltantes.
  • La interpolación es una técnica de imputación de datos que se utiliza para predecir el valor de la variable dependiente para una variable independiente que se encuentra entre los datos dados. Las técnicas clave de interpolación de datos incluyen la técnica de interpolación directa de Gregory Newton, la técnica de interpolación hacia atrás de Gregory Newton, la técnica de interpolación de LaGrange y más.
  • La extrapolación es la imputación de un valor extendido a partir de un conjunto de valores conocido. Es la estimación de algo a través del supuesto de que las tendencias existentes continuarán. Las técnicas populares de extrapolación de datos son la línea de tendencia y la extrapolación de Lagrange. Mientras que las técnicas de interpolación obtienen un valor entre dos puntos de un conjunto de datos, las técnicas de extrapolación estiman un valor que está fuera del conjunto de datos. 

La estrategia para gestionar los datos faltantes de MAR en el análisis de datos se ilustra en la siguiente imagen.

Categorías de datos faltantes, soluciones y técnicas

Aunque la imputación de datos puede mejorar la calidad de los datos, se debe tener cuidado al elegir una técnica de imputación de datos adecuada. Algunas técnicas de imputación de datos no preservan la relación entre variables, algunas pueden distorsionar la distribución de datos subyacente, otras pueden depender de un tipo de datos específico, etc. Entonces, en lugar de depender de una sola técnica de imputación de datos, la estrategia debería consistir en utilizar múltiples técnicas para imputar el valor. En este sentido, las técnicas de conjunto se pueden aprovechar adoptando múltiples algoritmos de imputación de datos para producir un modelo óptimo para un mejor rendimiento.

punto_img

Información más reciente

punto_img