Logotipo de Zephyrnet

Presentamos el concepto de tejido de análisis de datos: DATAVERSITY

Fecha:

Organizaciones de todo el mundo (tanto con fines de lucro como sin fines de lucro) están buscando aprovechar el análisis de datos para mejorar el desempeño empresarial. Hallazgos de un Encuesta de McKinsey indican que las organizaciones basadas en datos tienen 23 veces más probabilidades de adquirir clientes, seis veces más probabilidades de retener clientes y 19 veces más rentables [1]. Investigación del MIT encontró que las empresas digitalmente maduras son un 26% más rentables que sus pares [2]. Pero muchas empresas, a pesar de ser ricas en datos, tienen dificultades para implementar el análisis de datos debido a las prioridades contradictorias entre las necesidades comerciales, las capacidades disponibles y los recursos. Investigación de Gartner descubrió que más del 85% de los proyectos de datos y análisis fracasan [3] y un informe conjunto de IBM y Carnegie Melon muestra que el 90% de los datos de una organización nunca se utilizan con éxito para ningún propósito estratégico [4].

Con este telón de fondo, presentamos el concepto de “tejido de análisis de datos (DAF)”, como un ecosistema o estructura que permite que el análisis de datos funcione de manera efectiva en función de (a) necesidades u objetivos comerciales, (b) capacidades disponibles, como personas/habilidades. , procesos, cultura, tecnologías, conocimientos, competencias para la toma de decisiones y más, y (c) recursos (es decir, componentes que una empresa necesita para operar).

Nuestro objetivo principal al introducir el tejido de análisis de datos es responder a esta pregunta fundamental: "¿Qué se requiere para construir de manera efectiva un sistema que permita tomar decisiones a partir de Data science ¿Algoritmos para medir y mejorar el rendimiento empresarial? A continuación se muestra y analiza el tejido de análisis de datos y sus cinco manifestaciones clave.

Fuente de imagen: Instituto DBP

1. Centrado en la medición

En esencia, la analítica consiste en utilizar datos para obtener información, medir y mejorar el rendimiento empresarial [5]. Existen tres tipos principales de análisis para medir y mejorar el desempeño empresarial:

  • Analítica descriptiva hace la pregunta: "¿Qué pasó?" El análisis descriptivo se utiliza para analizar datos históricos para identificar patrones, tendencias y relaciones utilizando técnicas de análisis de datos exploratorios, asociativos e inferenciales. Las técnicas de análisis de datos exploratorios analizan y resumen conjuntos de datos. El análisis descriptivo asociativo explica la relación entre variables. El análisis descriptivo inferencial de datos se utiliza para inferir o concluir tendencias sobre una población más grande basándose en el conjunto de datos de muestra. 
  • Analítica predictiva busca responder la pregunta: "¿Qué pasará?" Básicamente, el análisis predictivo es el proceso de utilizar datos para pronosticar tendencias y eventos futuros. El análisis predictivo se puede realizar manualmente (comúnmente conocido como análisis predictivo impulsado por analistas) o utilizando algoritmos de aprendizaje automático (también conocido como análisis predictivo basado en datos). De cualquier manera, los datos históricos se utilizan para hacer predicciones futuras.
  • Analítica prescriptiva ayuda a responder la pregunta: "¿Cómo podemos lograrlo?" Básicamente, el análisis prescriptivo recomienda el mejor curso de acción para avanzar utilizando técnicas de optimización y simulación. Normalmente, el análisis predictivo y el análisis prescriptivo van de la mano porque el análisis predictivo ayuda a encontrar resultados potenciales, mientras que el análisis prescriptivo analiza esos resultados y encuentra más opciones.

2. Centrado en variables

Los datos también se pueden analizar en función del número de variables disponibles. En este sentido, en función del número de variables, las técnicas de análisis de datos pueden ser univariadas, bivariadas o multivariadas.

  • Análisis univariado: El análisis univariante implica analizar el patrón presente en una sola variable utilizando medidas de centralidad (media, mediana, moda, etc.) y variación (desviación estándar, error estándar, varianza, etc.).
  • Análisis bivariado: Hay dos variables en las que el análisis está relacionado con la causa y la relación entre las dos variables. Estas dos variables pueden ser dependientes o independientes entre sí. La técnica de correlación es la técnica de análisis bivariado más utilizada.
  • Analisis multivariable: Esta técnica se utiliza para analizar más de dos variables. En un entorno multivariado, normalmente operamos en el ámbito del análisis predictivo y la mayoría de los algoritmos de aprendizaje automático (ML) conocidos, como la regresión lineal, la regresión logística, los árboles de regresión, las máquinas de vectores de soporte y las redes neuronales, generalmente se aplican a un entorno multivariado. configuración.

3. Centrado en la supervisión

El tercer tipo de tejido de análisis de datos se ocupa del entrenamiento de los datos de entrada o los datos de variables independientes que han sido etiquetados para una salida particular (es decir, la variable dependiente). Básicamente, la variable independiente es la que controla el experimentador. La variable dependiente es la variable que cambia en respuesta a la variable independiente. El DAF centrado en la supervisión podría ser de dos tipos.

  • Causalidad: Los datos etiquetados, ya sea que se generen automática o manualmente, son esenciales para el aprendizaje supervisado. Los datos etiquetados permiten definir claramente una variable dependiente, y luego es cuestión del algoritmo de análisis predictivo construir una herramienta de IA/ML que establezca una relación entre la etiqueta (variable dependiente) y el conjunto de variables independientes. Como tenemos una demarcación clara entre la noción de variable dependiente y un conjunto de variables independientes, nos permitimos introducir el término "causalidad" para explicar mejor la relación.
  • No causalidad: Cuando indicamos que nuestra dimensión es “centrada en la supervisión”, también nos referimos a la “ausencia de supervisión”, y eso trae a la discusión los modelos no causales. Los modelos no causales merecen mención porque no requieren datos etiquetados. La técnica básica aquí es la agrupación, y los métodos más populares son k-Means y la agrupación jerárquica.  

4. Centrado en el tipo de datos

Esta dimensión o manifestación del tejido de análisis de datos se centra en los tres tipos diferentes de variables de datos relacionadas con las variables independientes y dependientes que se utilizan en las técnicas de análisis de datos para obtener conocimientos. 

  • Datos nominales se utiliza para etiquetar o categorizar datos. No implica un valor numérico y, por lo tanto, no es posible realizar cálculos estadísticos con datos nominales. Ejemplos de datos nominales son el sexo, la descripción del producto, la dirección del cliente y similares. 
  • Datos ordinales o clasificados Es el orden de los valores, pero no se conocen realmente las diferencias entre cada uno. Los ejemplos comunes aquí son clasificar a las empresas según la capitalización de mercado, las condiciones de pago de los proveedores, las puntuaciones de satisfacción del cliente, la prioridad de entrega, etc. 
  • Datos numéricos no necesita presentación y tiene un valor numérico. Estas variables son los tipos de datos más fundamentales que se pueden utilizar para modelar todo tipo de algoritmos.  

5. Centrado en resultados

Este tipo de tejido de análisis de datos analiza las formas en que se puede generar valor empresarial a partir de los conocimientos derivados del análisis. Hay dos formas en que la analítica puede impulsar el valor empresarial: a través de productos o proyectos. Si bien es posible que los productos deban abordar ramificaciones adicionales en torno a la experiencia del usuario y la ingeniería de software, el ejercicio de modelado realizado para derivar el modelo será similar tanto en el proyecto como en el producto.

  • A producto de análisis de datos es un activo de datos reutilizable para satisfacer las necesidades a largo plazo del negocio. Recopila datos de fuentes de datos relevantes, garantiza la calidad de los datos, los procesa y los hace accesibles a cualquiera que los necesite. Los productos suelen estar diseñados para personas y tienen múltiples etapas o iteraciones del ciclo de vida en las que se obtiene el valor del producto.
  • proyecto de análisis de datos está diseñado para abordar una necesidad comercial particular o única y tiene una base de usuarios o un propósito definido o limitado. Básicamente, un proyecto es un esfuerzo temporal destinado a entregar la solución para un alcance definido, dentro del presupuesto y a tiempo.

La economía mundial se transformará drásticamente en los próximos años a medida que las organizaciones utilicen cada vez más datos y análisis para obtener conocimientos y tomar decisiones para medir y mejorar el rendimiento empresarial. McKinsey descubrió que las empresas que se basan en conocimientos informan aumentos de EBITDA (ganancias antes de intereses, impuestos, depreciación y amortización) de hasta un 25% [5]. Sin embargo, muchas organizaciones no logran aprovechar los datos y el análisis para mejorar los resultados comerciales. Pero no existe una única forma o enfoque estándar para ofrecer análisis de datos. El despliegue o implementación de soluciones de análisis de datos depende de los objetivos, capacidades y recursos del negocio. El DAF y sus cinco manifestaciones analizadas aquí pueden permitir que el análisis se implemente de manera efectiva en función de las necesidades comerciales, las capacidades disponibles y los recursos.

Referencias

  1. mckinsey.com/capabilities/growth-marketing-and-sales/our-insights/five-facts-how-customer-analytics-boosts-corporate-rendimiento
  2. ide.mit.edu/insights/las-empresas-digitalmente-maduras-son-26-más-rentables-que-sus-peores/
  3. gartner.com/en/newsroom/press-releases/2018-02-13-gartner-dice-casi-la-mitad-de-cios-están-planeando-implementar-inteligencia-artificial
  4. forbes.com/sites/forbestechcouncil/2023/04/04/three-key-misconceptions-of-data-quality/?sh=58570fc66f98
  5. Southekal, Prashanth, "Mejores prácticas de análisis", Técnicas, 2020
  6. mckinsey.com/capabilities/growth-marketing-and-sales/our-insights/insights-to-impact-creating-and-sustaining-data-driven-commercial-growth
punto_img

Información más reciente

café vc

vidacienciav

punto_img

café vc

café vc

vidacienciav

vidacienciav