Logotipo de Zephyrnet

Evolución en ETL: cómo saltarse la transformación mejora la gestión de datos – KDnuggets

Fecha:

Evolución en ETL: cómo saltarse la transformación mejora la gestión de datos
Imagen por editor
 

Pocos conceptos de datos son más polarizadores que ETL (extracción-transformación-carga), la técnica de preparación que ha dominado las operaciones empresariales durante varias décadas. Desarrollado en la década de 1970, ETL brilló durante una era de almacenes y repositorios de datos a gran escala. Los equipos de datos empresariales centralizaron datos, sistemas de informes en capas y modelos de ciencia de datos además, y permitieron el acceso de autoservicio a herramientas de inteligencia empresarial (BI). Sin embargo, ETL ha demostrado su edad en una era de servicios en la nube, modelos de datos y procesos digitales.  

Búsquedas como "¿ETL sigue siendo relevante/en demanda/obsoleto/muerto?" rellenar resultados en Google. La razón es que los equipos de datos empresariales están quejándose bajo el peso de preparar datos para un uso generalizado en todos los roles de los empleados y funciones comerciales. ETL no se escala fácilmente para manejar grandes volúmenes de datos históricos almacenados en la nube. Tampoco proporciona los datos en tiempo real necesarios para una rápida toma de decisiones ejecutivas. Además, la creación de API personalizadas para proporcionar datos a las aplicaciones crea una complejidad de gestión significativa. No es raro que las empresas modernas tengan entre 500 y 1,000 canales en funcionamiento mientras buscan transformar datos y equipar a los usuarios con acceso de autoservicio a herramientas de BI. Sin embargo, estas API están en constante estado de evolución, ya que deben reprogramarse cuando cambian los datos que extraen. Está claro que este proceso es demasiado frágil para muchos requisitos de datos modernos, como los casos de uso periféricos. 

Además, las capacidades de las aplicaciones han evolucionado. Los sistemas de origen proporcionan lógica empresarial y herramientas para hacer cumplir la calidad de los datos, mientras que las aplicaciones de consumo permiten la transformación de los datos y proporcionan una capa semántica sólida. Por lo tanto, los equipos tienen menos incentivos para crear interfaces punto a punto para mover datos a escala, transformarlos y cargarlos en el almacén de datos. 

Dos técnicas innovadoras señalan el camino para permitir la democratización de los datos y al mismo tiempo minimizar las cargas de la transformación. Zero ETL hace que los datos estén disponibles sin moverlos, mientras que ETL inverso empuja, en lugar de extraer, datos a las aplicaciones que los necesitan tan pronto como están disponibles. 

Zero ETL optimiza el movimiento de conjuntos de datos más pequeños. Con la replicación de datos, los datos se mueven a la nube en su estado actual para usarlos en consultas o experimentos de datos. 

Pero ¿qué pasa si los equipos no quieren transferir datos en absoluto?

La virtualización de datos abstrae los servidores de los usuarios finales. Cuando los usuarios consultan datos de una única fuente, esa salida se les devuelve. Y con la federación de consultas, los usuarios pueden consultar múltiples fuentes de datos. La herramienta combina resultados y presenta al usuario resultados de datos integrados. 

Estas técnicas se denominan ETL cero porque no es necesario crear una canalización ni transformar datos. Los usuarios manejan las necesidades de agregación y calidad de los datos sobre la marcha. 

Zero ETL es ideal para el análisis ad hoc de datos a corto plazo, ya que la ejecución de grandes consultas sobre datos históricos puede perjudicar el rendimiento operativo y aumentar los costos de almacenamiento de datos. Por ejemplo, muchos ejecutivos de bienes de consumo empaquetados y minoristas utilizan cero ETL para consultar datos transaccionales diarios para enfocar las estrategias de marketing y ventas durante momentos de máxima demanda, como las vacaciones. 

Google Cortex proporciona aceleradores, lo que permite cero ETL en Planificación de recursos empresariales de SAP datos de sistema. Otras empresas, como uno de los minoristas más grandes del mundo y una empresa global de alimentos y bebidas, también han adoptado procesos ETL cero. 

Las ganancias cero de ETL incluyen: 

  • Proporcionando velocidad de acceso: El uso de procesos ETL cero para aprovisionar datos para consultas de autoservicio ahorra entre un 40% y un 50% del tiempo que lleva utilizar procesos ETL tradicionales, ya que no es necesario crear canalizaciones.
  • Reducir los requisitos de almacenamiento de datos: Los datos no se mueven con la virtualización de datos ni con la federación de consultas. Los usuarios solo almacenan los resultados de las consultas, lo que reduce los requisitos de almacenamiento.
  • Ofreciendo ahorros de costos: Los equipos que utilizan procesos ETL cero ahorran entre un 30 % y un 40 % en costos de preparación y almacenamiento de datos en comparación con el ETL tradicional.
  • Mejora del rendimiento de los datos: Dado que los usuarios consultan solo los datos que desean, los resultados se obtienen un 25 % más rápido.  

Para comenzar con ETL cero, los equipos deben evaluar qué casos de uso son los más adecuados para esta técnica e identificar los elementos de datos que necesitan para ejecutarla. También deben configurar su herramienta ETL cero para que apunte a las fuentes de datos deseadas. Luego, los equipos extraen datos, crean activos de datos y los exponen a los usuarios intermedios. 

Las técnicas de ETL inversa simplifican los flujos de datos hacia aplicaciones posteriores. En lugar de utilizar API REST o puntos finales y escribir scripts para extraer datos, los equipos aprovechan las herramientas ETL inversas para insertar datos en los procesos comerciales a tiempo y en su totalidad. 

El uso de ETL inverso proporciona los siguientes beneficios:

  • Reducir tiempo y esfuerzo: El uso de ETL inverso para casos de uso clave reduce el tiempo y el esfuerzo para acceder a los datos para casos de uso clave entre un 20 y un 25 %. Una línea de cruceros líder aprovecha el ETL inverso para iniciativas de marketing digital.
  • Mejorar la disponibilidad de datos: Los equipos tienen una mayor certeza de que tendrán acceso a los datos que necesitan para iniciativas clave, ya que entre el 90% y el 95% de los datos objetivo se entregan a tiempo.
  • Costos decrecientes: Los procesos ETL inversos reducen la necesidad de API, que requieren habilidades de programación especializadas y aumentan la complejidad de la gestión. Como resultado, los equipos reducen los costos de datos entre un 20 y un 25 %. 

Para comenzar con ETL inverso, los equipos de datos deben evaluar casos de uso que requieran datos bajo demanda. A continuación, determinan la frecuencia y el volumen de datos que se entregarán y eligen las herramientas adecuadas para manejar estos volúmenes de datos. Luego, dirigen los activos de datos del almacén de datos a sus sistemas de consumo de destino. Los equipos deben crear prototipos con una carga de datos para medir la eficiencia y escalar los procesos. 

Las herramientas Zero ETL y ETL inversa brindan a los equipos nuevas opciones para entregar datos a usuarios y aplicaciones. Pueden analizar factores como requisitos de casos de uso, volúmenes de datos, plazos de entrega y factores de costo para seleccionar la mejor opción para entregar datos, ya sea ETL tradicional, ETL cero o ETL inverso.

Los socios apoyan estos esfuerzos brindando información sobre las mejores técnicas y herramientas para cumplir con los requisitos funcionales y no funcionales, proporcionando un cuadro de mando ponderado, realizando una prueba de valor (POV) con la herramienta ganadora y luego operacionalizando la herramienta para más casos de uso. 

Con ETL cero y ETL inverso, los equipos de datos logran sus objetivos de brindar a los usuarios y las aplicaciones los datos que necesitan donde y cuando los necesitan, generando ganancias de costos y rendimiento y evitando dolores de cabeza por la transformación. 
 
 

Arnabsenes un profesional experimentado con una carrera que abarca más de 16 años en la industria de la tecnología y la ciencia de la decisión. Actualmente se desempeña como vicepresidente de ingeniería de datos en Tredence, una destacada empresa de análisis de datos, donde ayuda a las organizaciones a diseñar sus estrategias de AI-ML/Cloud/Big-data. Con su experiencia en monetización de datos, Arnab descubre el potencial latente de los datos para impulsar transformaciones comerciales entre clientes B2B y B2C de diversas industrias.
 
La pasión de Arnab por la formación de equipos y su capacidad para escalar personas, procesos y conjuntos de habilidades lo han ayudado a administrar con éxito carteras multimillonarias en varios sectores verticales, incluidos Telecom, Retail y BFSI. Anteriormente ocupó cargos en Mu Sigma e IGate, donde desempeñó un papel crucial en la resolución de los problemas de los clientes mediante el desarrollo de soluciones innovadoras.
 
Las excepcionales habilidades de liderazgo y el profundo conocimiento del campo de Arnab le han valido un puesto en el Forbes Tech Council.

punto_img

Información más reciente

punto_img