Logotipo de Zephyrnet

Usabilidad e hilos de conexión: cómo Data Fabric tiene sentido a partir de datos dispares – DATAVERSITY

Fecha:

Generar información procesable a través de volúmenes de datos crecientes y silos de datos desconectados es cada vez más desafiante para las organizaciones. Trabajar en islas de datos conduce a un pensamiento en silos y a la incapacidad de implementar iniciativas comerciales críticas como Customer, Product o Asset 360. A medida que los datos se generan, almacenan y usan en centros de datos, proveedores de borde y nube, administrar un entorno de almacenamiento distribuido es complejo y no tiene un mapa que guíe a los profesionales de la tecnología.

Según la  McKinsey, los usuarios suelen pasar el 30% de su tiempo tratando de encontrar los datos correctos. Como resultado, las organizaciones están aplicando estructuras de datos para crear un entorno virtualmente unificado para que los consumidores de datos puedan acceder a datos divididos entre aplicaciones y procesos.

Data Fabric: ¿Quién y qué?

Según la Gartner, el tejido de datos es un concepto de diseño que sirve como una capa integrada (tejido) de datos y procesos de conexión. Una estructura de datos utiliza una capa de datos integrada sobre activos de metadatos existentes, detectables e inferidos para respaldar el diseño, la implementación y la utilización de datos en todas las empresas, incluidas las plataformas híbridas y de múltiples nubes. 

Esta arquitectura de datos lógicos está diseñada para ayudar a las organizaciones a lidiar con volúmenes crecientes de datos, que abarcan silos de datos Con conectividad perfecta y una capa de conocimiento. Mediante el uso de metadatos, aprendizaje automático (ML) y automatización, una estructura de datos proporciona una vista unificada de los datos empresariales en todos los formatos y ubicaciones de datos. Permite la federación y la virtualización de datos, así como el acceso y el uso compartido sin inconvenientes en un entorno de datos distribuidos. También ayuda a capturar y conectar datos basados ​​en negocios o dominios.

Al utilizar un tejido de datos, las organizaciones pueden mejorar la usabilidad y la calidad de sus activos y ampliarlos y enriquecerlos con servicios reutilizables. Gracias a los metadatos en los que se basa la estructura de datos, las empresas también pueden reconocer diferentes tipos de datos, qué es relevante y qué necesita controles de privacidad; mejorando así la inteligencia de todo el ecosistema de información. 

Como concepto de diseño, la estructura de datos requiere una combinación de tecnologías de gestión de datos existentes y emergentes más allá de los metadatos. La estructura de datos no reemplaza los almacenes de datos, los lagos de datos o lagos de datos. En cambio, aprovecha la IA y el análisis basado en gráficos, así como los flujos de trabajo y las aplicaciones de gestión de datos profundamente integrados. Un tejido agrega datos de fuentes heterogéneas con una capa de virtualización que asimila datos con copia cero. La capa de estructura de datos también garantiza la privacidad y el cumplimiento de las normativas.  

Data Fabric: cuándo, dónde y por qué

La estructura de datos es más adecuada para organizaciones grandes con una huella de datos en rápido crecimiento que reside en una miríada de fuentes e incluye una variedad de formatos almacenados en múltiples centros de datos. La democratización del acceso a los datos para generar inteligencia competitiva es otro caso de uso popular, ya que las estructuras de datos ayudan a las organizaciones con necesidades de datos altamente interrelacionadas a unificar la información en diferentes departamentos y unidades comerciales. Después de todo, cuando las empresas carecen de contexto de dominio y la semántica unificada dificulta el uso de datos dentro de la organización, un enfoque de tejido de datos puede cambiar las reglas del juego.

Los principales objetivos de la estructura de datos incluyen:

  • Cree ingeniería e integración de datos semánticos inteligentes: con acceso gobernado para mejorar la capacidad de encontrar y comprender los datos.
  • Habilite el etiquetado y las anotaciones: respaldado por políticas centralizadas para el acceso, la privacidad, la protección y la calidad de los datos con la aplicación de políticas de gobierno.
  • Reduzca el tiempo de comprensión y optimice el acceso a los datos: a través de inteligencia empresarial, ML y otros casos de uso al simplificar la integración de datos y la distribución de datos entre sistemas.
  • Asimilar, agregar y unificar datos heterogéneos en silos: independientemente del formato, haciéndolo disponible para que humanos y máquinas lo descubran y lo consuman sin ambigüedades.

La adopción de un enfoque de tejido de datos para los desafíos de gestión de datos empresariales simplifica la integración. Reduce los costos de administración de datos al eliminar silos y reducir la complejidad de la integración. Esto también brinda la flexibilidad de agregar nuevas fuentes de datos, aplicaciones y servicios de datos según sea necesario sin interrumpir la infraestructura existente.

Componentes de una arquitectura de estructura de datos 

Las implementaciones y el despliegue de la estructura de datos varían según las organizaciones y, a diferencia de los enfoques tradicionales, no existe una solución única para todos. El enfoque es único para cada negocio y las organizaciones deben elegir entre una variedad de tecnologías y productos para construir y ensamblar la estructura de datos que funcione mejor para ellos. A menudo, los proveedores embellecen los catálogos de datos y los venden con un nombre de estructura de datos. Las organizaciones pueden comprar herramientas preintegradas de un proveedor o incorporar los mejores componentes de diferentes proveedores e integrarlos internamente para crear una estructura de datos.

Debajo del capó, una estructura de datos se basa en la representación universal de datos que permite la búsqueda, automatización, integración y reutilización eficientes y efectivas de datos en silos, aplicaciones y casos de uso. En esencia, la estructura de datos incorpora algoritmos y procesos impulsados ​​por ML para automatizar el descubrimiento, la catalogación y la preparación para que los equipos de datos puedan mantenerse al día con datos y esquemas en constante evolución.

Con la tecnología de una capa de software sobre los sistemas existentes y compuesta por varios servicios, la estructura de datos aprovecha las reglas para mapear y vincular automáticamente las políticas a los activos de datos que se administran mediante clasificaciones y vocabularios y taxonomías comerciales.

Gráficos de conocimiento: un componente clave para Data Fabric

Una capa impulsada por gráficos de conocimiento (KG) es el núcleo de una estructura de datos sólida. Un KG agrega semántica y contexto a las piezas de datos y vincula/interconecta elementos de datos a través de diversos conjuntos de datos estructurados y no estructurados, lo que permite una integración perfecta y la interoperabilidad de datos. Con un KG semántico, los datos se asignan a estándares semánticos en los que se crea y se basa el modelo gráfico. Esto ayuda en el descubrimiento y la exploración de datos, ya que identifica patrones en todos los tipos de metadatos.

Usando los conceptos, las entidades, las relaciones y la semántica en el modelo de gráfico de conocimiento, la estructura de datos combina diversos conjuntos de datos y los hace significativamente consumibles en todos los productos de datos. Los modelos de gráficos de conocimiento con soporte para capacidades de semántica, estandarización, datos y validación de hechos se pueden usar para garantizar la calidad semántica de los datos, así como la consistencia, la interoperabilidad y la capacidad de descubrimiento de los datos. Una estructura de datos necesita encontrar, integrar, catalogar y compartir metadatos continuamente, a través de plataformas híbridas y de múltiples nubes, y en el perímetro. Estos metadatos, con sus interconexiones y relaciones, se representan como un gráfico de entidades y atributos conectados con una ontología.

El núcleo del catálogo semántico está seleccionado y mejorado con metadatos que definen políticas de datos para validaciones de privacidad, linaje de datos, seguridad y cumplimiento. Esto aplica políticas basadas en perfiles de consumidores para automatizar la aplicación de políticas. El enriquecimiento de datos automatizado se aplica para descubrir automáticamente, clasificar, detectar datos confidenciales, analizar la calidad de los datos y vincular términos comerciales con metadatos técnicos. El núcleo de metadatos basado en el conocimiento se basa en algoritmos de IA y ML y aumenta los metadatos para crear y enriquecer el catálogo de conocimiento. Esto facilita el descubrimiento, enriquece los activos de datos y realiza análisis para extraer información para una mayor automatización utilizando IA.

Data Fabric representa la evolución de la arquitectura de datos empresariales con el objetivo de automatizar y reducir los dos aspectos más desafiantes de los datos en las grandes organizaciones: los silos de datos y la integración de datos. Una estructura de datos que aproveche los gráficos de conocimiento semántico es la clave para potenciar los catálogos de datos inteligentes y los enfoques de virtualización que pueden permitir que los datos permanezcan en su lugar, al tiempo que brindan un acceso controlado y uniforme para el consumo empresarial a través de los centros de datos y los límites organizacionales.

punto_img

Información más reciente

punto_img