Logotipo de Zephyrnet

Linaje de datos: estudios de casos de empresas basadas en datos

Fecha:

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

El linaje de datos es el proceso de analizar la ruta de los datos y cómo se involucra en diferentes métodos con el tiempo. Muchas empresas y empresas lo usan para tener una idea de la fuente, la ruta de datos y cómo se utilizan los datos. Puede ayudar a las organizaciones a obtener información de los datos para planificar pasos futuros y utilizar los datos para mejorar el rendimiento del producto o servicio.

Linaje de datos

En este artículo, analizaremos 3 casos de estudio en los que empresas basadas en datos como Netflix, Slack y Postman implementaron el linaje de datos y se beneficiaron de ello. Aquí también discutiremos su proceso y la técnica que aplicaron al implementarlo y usarlo.

Estudios de casos de linaje de datos

Algunas empresas basadas en datos como Netflix, Slack, UBS, Postman y Airbnb están convencidas de los beneficios del linaje de datos y ahora los están usando y cosechando beneficios. Analicemos el proceso de vinculación de datos en estas empresas y cómo se benefician de él.

netflix | linaje de datos

Netflix se ha convencido de los beneficios del linaje de datos y lo ha implementado. En la etapa de inicio del proyecto, definieron objetivos de diseño para ayudar a guiar la arquitectura y el trabajo de desarrollo para ofrecer un sistema de linaje completo, preciso, confiable y escalable que mapee el diverso panorama de datos de Netflix. Algunos de estos principios son:

  • Garantice la integridad de los datos
  • Permitir una integración perfecta
  • Diseñe un modelo de datos flexible

Basado en un modelo de datos estándar a nivel de entidad, han construido un modelo de relación genérico que describe las dependencias entre cualquier par de entidades. Con este enfoque, pueden crear un modelo de datos unificado y el repositorio para brindar el aprovechamiento adecuado para permitir múltiples casos de uso, como el descubrimiento de datos, el servicio SLA y la eficiencia de datos.

holgura | linaje de datos

Slack se ha convencido de los beneficios del linaje de datos y, por lo tanto, también ha invertido en lo mismo. Slack afirma que a medida que los conjuntos de datos se vuelven más complejos y crece la cantidad de contribuyentes, se vuelve cada vez más difícil comprender las relaciones entre las diferentes fuentes de datos.

Para que sea más fácil para la gente usar sus datos de linaje, han producido una versión plana de las tablas de niveles y las han almacenado en Hive. La tabla aplanada permite a la gente consultar datos de linaje en nuestro almacén de datos y también hace que las consultas sean más fáciles de escribir/ejecutar para casos de uso típicos.

Además, con la ayuda del linaje de datos, han trabajado en un sistema de notificaciones. Han creado herramientas de notificación en su portal de datos interno para permitir que sus consumidores de datos usen información de linaje y notifiquen a los consumidores intermedios. Hay un botón de notificación mediante el cual los propietarios del conjunto de datos pueden obtener información.

Postman también ha corregido una capa faltante en su capa de datos. El sistema de datos de Postman era bastante simple. Tenían un conjunto de tablas de datos, y la información sobre esas tablas vivía en la cabeza de los primeros miembros del equipo de datos. Esto funcionó cuando la empresa y sus datos eran pequeños pero necesitaban ayuda para mantenerse a medida que comenzaba a crecer exponencialmente.

Postman actualmente tiene cientos de miembros del equipo distribuidos en cuatro continentes y más de 17 millones de usuarios de 500,000 empresas que utilizan su plataforma API.

El cofundador y CTO de Postman, Ankit Sobti, quería asegurarse de que los datos se democratizaran. Dijo que es una tarea desafiante para un equipo de ingeniería de datos obtener información de los datos en cualquier momento del día. Él creía que todos en la empresa deberían poder acceder a los datos y obtener información. Esto se volvió muy tedioso en 2020 cuando Potman se volvió completamente en línea debido a la pandemia de COVID.

El equipo de datos decidió tomar el sistema de datos de Postman como un proyecto para abordar este problema. Su objetivo principal era facilitar el acceso y la comprensión de los datos de Postman, tanto para los nuevos empleados dentro del equipo de datos como para las personas de toda la empresa con la ayuda del linaje de datos.

Han utilizado el linaje de datos para saber de dónde provienen los datos y cómo se conectan a otras capas. El linaje de datos les ayudó a comprender la conectividad de los datos y los errores y fallas diarias que ocurrían en el sistema. Les ayudó a resolver problemas más rápido; Sin lugar a dudas, el equipo de Slack podría resolver el problema con solo mirar el linaje de datos. También planean tomar medidas adicionales en el linaje de datos para que su gestión de datos sea más accesible y rápida.

Cuando el linaje de datos es una obviedad (sin uso) para algunas organizaciones

Se ha demostrado que el linaje de datos es la solución más adecuada para la mayoría de las organizaciones que trabajan con datos y gestión de datos. Aún así, hay algunos casos en los que se ha demostrado que es una obviedad para las organizaciones.

Algunas organizaciones almacenan una gran cantidad de datos y trabajan con muchas fuentes de datos y almacenamiento. El linaje de datos puede resultar una obviedad para una organización de este tipo, ya que necesita proporcionar la mejor información confiable para dichos datos.

El linaje de datos proporciona información sobre las fuentes de datos y el ciclo de vida completo de los datos; el linaje del diseño de los datos puede ayudar a tener una idea sobre la cabeza y el consumo de los datos. Sin embargo, es útil para los arquitectos comprender la implementación de cómo fluyen los datos. Sin embargo, los expertos en la materia en el negocio que desean auditar el procesamiento de datos pueden encontrarlo complejo para navegar.

El linaje empresarial proporciona vistas simplificadas sobre el análisis de tipos de negocios sobre el linaje de diseño. Un informe de linaje empresarial puede mostrar solo los sistemas significativos o puede eliminar los sistemas y las estructuras de trabajo solo para mostrar la transformación.

Así es como el linaje de datos está diseñado para mostrar cosas rápida y fácilmente, pero no para buscar elementos. Supongamos que la organización trabaja con una gran cantidad de datos o fuentes de datos discretas que varían con frecuencia. No podrá encontrar la información deseada de los datos, ya que puede mostrar el diagrama de flujo o el ciclo de vida de los datos. Aún así, los resultados solo serán confiables para una pequeña cantidad de datos o datos variables. Por lo tanto, es una obviedad comprobada para las organizaciones que trabajan con grandes volúmenes y datos de rango.

Conclusión

En este artículo, discutimos los estudios de las empresas basadas en datos que implementaron y usaron el linaje de datos y su aplicación y se beneficiaron de eso. Vimos empresas basadas en datos como Netflix, Slack y Postman, que utilizaron el concepto en su base de datos, lo que arrojó resultados positivos. El conocimiento sobre estas empresas y su proceso de linaje de datos ayudará a comprender cómo las empresas de datos colosales están utilizando esto y también ayudará a responder las preguntas formuladas en las entrevistas de ingeniería de datos de manera muy eficiente.

Cosas Puntos clave de este artículo son:

1. Hoy en día, la mayoría de las empresas basadas en datos utilizan el linaje de datos para un mejor control y manejo de datos.

2. Las empresas con fuentes de datos pueden implementar el linaje de datos de manera muy eficiente y ayudarlas a tener una idea más clara de los datos que se utilizan en poco tiempo.

3. Es una obviedad o no tan útil para empresas con poca generación de datos o startups con bases de datos más ligeras.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

punto_img

Información más reciente

punto_img