Logotipo de Zephyrnet

Resumen del año 2022 de AWS Lake Formation

Fecha:

El gobierno de datos es el conjunto de políticas, procesos y sistemas que utilizan las organizaciones para garantizar la calidad y el manejo adecuado de sus datos a lo largo de su ciclo de vida con el fin de generar valor comercial. El gobierno de datos es cada vez más importante para los clientes, ya que reconocen que los datos son uno de sus activos más importantes. El gobierno de datos efectivo permite una mejor toma de decisiones al mejorar la calidad de los datos, reducir los costos de gestión de datos y garantizar el acceso seguro a los datos para las partes interesadas. Además, el gobierno de datos debe cumplir con un entorno regulatorio cada vez más complejo con la privacidad de datos (como GDPR y CCPA) y las regulaciones de residencia de datos (como en la UE, Rusia y China).

Para los clientes de AWS, el gobierno de datos eficaz mejora la toma de decisiones, aumenta la agilidad empresarial, proporciona una ventaja competitiva y reduce el riesgo de multas por incumplimiento de las obligaciones reglamentarias. Comprendemos la oportunidad única de brindar a nuestros clientes una solución completa de gobierno de datos de extremo a extremo que se integre a la perfección en nuestra cartera de servicios, y Formación del lago AWS y del Catálogo de datos de AWS Glue son clave para resolver estos desafíos.

En esta publicación, nos complace resumir las características que los equipos de AWS Glue Data Catalog, AWS Glue crawler y Lake Formation entregaron en 2022. Hemos recopilado algunas de las charlas y soluciones clave sobre gobierno de datos, malla de datos y datos modernos. arquitectura publicada y presentada en AWS re:Invent 2022, y algunas soluciones de lago de datos creadas por clientes y socios de AWS para una fácil referencia. Si usted es un creador de plataformas de datos, un ingeniero de datos, un científico de datos o cualquier líder tecnológico interesado en soluciones de lagos de datos, esta publicación es para usted.

Para obtener más información sobre cómo los clientes aseguran y comparten datos con Lake Formation, recomendamos profundizar en GoDaddy's malla de datos descentralizada, Novo Nordisk arquitectura de datos moderna, y las mejoras de JPMorgan a su Lago de datos federado, una implementación de malla de datos gobernada que utiliza Lake Formation. Además, puede aprender cómo los socios de AWS se integraron con Lake Formation para ayudar a los clientes a crear lagos de datos únicos, en Starburst's solución de malla de datos, Informática solución de intercambio de datos automatizado, de Ahana Presto integración con Lake Formation, Costumbre ascendente sistema de gobierno de datos, cómo usó PBS aprendizaje automático en sus lagos de datos, y cómo hc1 proporciona conocimientos de salud personalizados para clientes.

Puede revisar cómo los clientes utilizan Lake Formation para construir arquitecturas de datos modernas en las siguientes charlas de re:Invent 2022:

El equipo de Lake Formation escuchó los comentarios de los clientes e hizo mejoras en las áreas de control de datos entre cuentas, expandiendo la fuente de los lagos de datos, permitiendo un control de datos unificado de un catálogo de datos comerciales, haciendo posible el intercambio seguro de datos de empresa a empresa y expandir el área de cobertura para controles de acceso detallados a Desplazamiento al rojo de Amazon. En el resto de esta publicación, nos complace compartir el progreso que logramos en 2022.

Mejorar la gobernanza entre cuentas

Lake Formation proporciona la base para que los clientes compartan datos entre cuentas dentro de su organización. Puede compartir recursos de AWS Glue Data Catalog para Gestión de identidades y accesos de AWS (IAM) principales dentro de una cuenta, así como otras cuentas de AWS utilizando dos métodos. El primero se denomina método de recurso con nombre, en el que los usuarios pueden seleccionar los nombres de las bases de datos y tablas y elegir el tipo de permisos para compartir. El segundo método utiliza etiquetas LF, donde los usuarios pueden crear y asociar etiquetas LF a bases de datos y tablas y otorgar permisos a las entidades principales de IAM mediante políticas y expresiones de etiquetas LF.

En noviembre de 2022, Lake Formation presentó la versión 3 de su función para compartir entre cuentas. Con esta nueva versión, los usuarios de Lake Formation pueden compartir recursos de catálogo usando LF-Tags en el Organizaciones de AWS nivel. Compartir datos mediante etiquetas LF ayuda a escalar los permisos y reduce el trabajo de administración para los creadores de lagos de datos. La versión 3 de uso compartido entre cuentas también le permite compartir recursos con entidades principales de IAM específicas en otras cuentas, lo que brinda a los propietarios de datos control sobre quién puede acceder a sus datos en otras cuentas. Por último, hemos eliminado la sobrecarga de escribir y mantener las políticas de recursos del catálogo de datos al introducir Administrador de acceso a recursos de AWS (AWS RAM) invita con políticas basadas en LF-Tags en la versión 3 de uso compartido entre cuentas. Lo alentamos a seguir explorando uso compartido entre cuentas en Lake Formation.

Extender los permisos de Lake Formation a nuevos datos

Hasta re:Invent 2022, Lake Formation proporcionó administración de permisos para principales de IAM en recursos de Data Catalog con datos subyacentes principalmente en Servicio de almacenamiento simple de Amazon (Amazon S3). En re:Invent 2022, presentamos Administración de permisos de Lake Formation para recursos compartidos de datos de Amazon Redshift en modo de vista previa. Amazon Redshift es un servicio de almacenamiento de datos a escala de petabytes completamente administrado en la nube de AWS. Él característica de intercambio de datos permite a los propietarios de datos agrupar bases de datos, tablas y vistas en un clúster de Amazon Redshift y compartirlo con otros clústeres de Amazon Redshift dentro o entre cuentas de AWS. El intercambio de datos reduce la necesidad de mantener varias copias de los mismos datos en diferentes almacenes de datos para acelerar la toma de decisiones comerciales en toda la organización. Lake Formation mejora aún más el uso compartido de datos dentro de los recursos compartidos de datos de Amazon Redshift al proporcionar un control de acceso detallado en tablas y vistas.

Para obtener detalles adicionales sobre esta función, consulte Recursos compartidos de datos de Redshift administrados por AWS Lake Formation (versión preliminar) y Cómo puede gestionar Lake Formation el uso compartido de datos de Redshift.

EMR de Amazon es una plataforma de clúster administrada para ejecutar aplicaciones de big data utilizando Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi y Presto a escala. Puede utilizar Amazon EMR para ejecutar trabajos de análisis de procesamiento por lotes y secuencias en sus lagos de datos de S3. A partir de la versión 6.7.0 de Amazon EMR, presentamos Administración de permisos de Lake Formation en un rol de IAM en tiempo de ejecución se utiliza con la API de pasos de EMR. Esta característica le permite enviar aplicaciones de Apache Spark y Apache Hive a un clúster de EMR a través de la API de pasos de EMR que aplica permisos de nivel de tabla y de columna mediante Lake Formation para ese rol de IAM que envía la aplicación. Esta integración de Lake Formation con Amazon EMR le permite compartir un clúster de EMR entre varios usuarios en una organización con diferentes permisos aislando sus aplicaciones a través de un rol de IAM en tiempo de ejecución. Le animamos a comprobar esta función en el taller de formación de lagos Integración con Amazon EMR mediante roles de tiempo de ejecución. Para explorar un caso de uso, consulte Presentación de roles de tiempo de ejecución para los pasos de Amazon EMR: use roles de IAM y AWS Lake Formation para el control de acceso con Amazon EMR.

Estudio Amazon SageMaker es un entorno de desarrollo totalmente integrado (IDE) para aprendizaje automático (ML) que permite a los científicos y desarrolladores de datos preparar datos para crear, entrenar, ajustar e implementar modelos. Studio ofrece una integración nativa con Amazon EMR para que los científicos de datos y los ingenieros de datos puedan preparar datos de forma interactiva a escala de petabytes mediante marcos de trabajo de código abierto como Apache Spark, Presto y Hive mediante portátiles de Studio. Con el lanzamiento de Administración de permisos de Lake Formation en un rol de IAM en tiempo de ejecución, Studio ahora admite el acceso a nivel de tabla y de columna con Lake Formation. Cuando los usuarios se conectan a clústeres de EMR desde notebooks de Studio, pueden elegir el rol de IAM (llamado rol de IAM en tiempo de ejecución) con los que quieren conectarse. Si Lake Formation administra el acceso a los datos, los usuarios pueden aplicar permisos a nivel de tabla y de columna mediante políticas adjuntas al rol de tiempo de ejecución. Para obtener más detalles, consulte Aplique controles de acceso a datos detallados con AWS Lake Formation y Amazon EMR de Amazon SageMaker Studio.

Ingerir y catalogar datos variados

Un modelo sólido de gobierno de datos incluye datos de muchas fuentes de datos y métodos de una organización para descubrir y catalogar esos variados activos de datos. Los rastreadores de AWS Glue brindan la capacidad de descubrir datos de fuentes que incluyen bases de datos de Amazon S3, Amazon Redshift y NoSQL, y completan el catálogo de datos de AWS Glue.

En 2022, lanzamos Compatibilidad con el rastreador de AWS Glue para Snowflake y Soporte de rastreador de AWS Glue para tablas de Delta Lake. Estas integraciones permiten a los rastreadores de AWS Glue crear y actualizar tablas de Data Catalog en función de estas fuentes de datos populares. Esto facilita aún más la creación de trabajos de extracción, transformación y carga (ETL) con AWS Glue en función de estas tablas de Data Catalog como orígenes y destinos.

En 2022, la interfaz de usuario de los rastreadores de AWS Glue se rediseñó para ofrecer una mejor experiencia de usuario. Una de las principales mejoras entregadas como parte de esta revisión es la mayor información sobre el historial del rastreador de AWS Glue. La interfaz de usuario del historial del rastreador proporciona una vista fácil de las ejecuciones, programaciones, fuentes de datos y etiquetas del rastreador. Para cada rastreo, el historial del rastreador ofrece un resumen de los cambios en el esquema de la base de datos o los cambios en la partición de Amazon S3. El historial del rastreador también proporciona información detallada sobre las horas de DPU y reduce el tiempo dedicado a analizar y depurar las operaciones y los costos del rastreador. Para explorar las nuevas funcionalidades agregadas a la interfaz de usuario de los rastreadores, consulte Configure y supervise los rastreadores de AWS Glue mediante la interfaz de usuario mejorada de AWS Glue y el historial del rastreador.

En 2022, también ampliamos la compatibilidad con rastreadores basados ​​en notificaciones de eventos de Amazon S3 para admitir tablas de catálogo. Con esta función, el rastreo incremental se puede descargar de las canalizaciones de datos al rastreador de AWS Glue programado, lo que reduce los rastreos a eventos S3 incrementales. Para obtener más información, consulte Cree rastreos incrementales de lagos de datos con tablas de catálogo de Glue existentes.

Más formas de compartir datos más allá del lago de datos

Durante re:Invent 2022, anunciamos una vista previa de Intercambio de datos de AWS para la formación de lagos de AWS, una nueva característica que permite a los suscriptores de datos encontrar y suscribirse a conjuntos de datos de terceros que se administran directamente a través de Lake Formation. Hasta ahora, Intercambio de datos de AWS los suscriptores podían acceder a conjuntos de datos de terceros exportando los archivos de los proveedores a sus propios cubos S3, llamando a las API de los proveedores a través de Puerta de enlace API de Amazono consultando los recursos compartidos de datos de Amazon Redshift de los productores desde su clúster de Amazon Redshift. Con la nueva integración de Lake Formation, los proveedores de datos seleccionan conjuntos de datos de AWS Data Exchange utilizando etiquetas de Lake Formation. Los suscriptores de datos pueden consultar y explorar las bases de datos y las tablas asociadas con esas etiquetas, al igual que cualquier otro recurso de AWS Glue Data Catalog. Las organizaciones pueden aplicar permisos de Lake Formation basados ​​en recursos para compartir los conjuntos de datos con licencia dentro de la misma cuenta o entre cuentas usando Administrador de licencias de AWS. AWS Data Exchange for Lake Formation agiliza las operaciones de uso compartido y concesión de licencias de datos acelerando la incorporación de datos, reduciendo la cantidad de ETL necesaria para que los usuarios finales accedan a datos de terceros y centralizando la gobernanza y los controles de acceso para datos de terceros.

En re:Invent 2022, también anunciamos Zona de datos de Amazon, un nuevo servicio de administración de datos que le permite catalogar, descubrir, compartir y controlar los datos almacenados en AWS, en las instalaciones y fuentes de terceros de forma más rápida y sencilla. Amazon DataZone es un servicio de catálogo de datos empresariales que complementa los metadatos técnicos de AWS Glue Data Catalog. Amazon DataZone está integrado con la administración de permisos de Lake Formation para que pueda administrar y controlar de manera efectiva el acceso a sus datos y auditar quién accede a qué datos y con qué propósito. Con el modelo de editor-suscriptor de Amazon DataZone, los activos de datos se pueden compartir y acceder a través de regiones. Para obtener detalles adicionales sobre el servicio y sus capacidades, consulte el Preguntas frecuentes sobre Amazon DataZone y lanzamiento de re:Invent.

Conclusión

Los datos están transformando todos los campos y todos los negocios. Sin embargo, dado que los datos crecen más rápido de lo que la mayoría de las empresas pueden rastrear, recopilar, proteger y obtener valor de esos datos es algo desafiante. Una estrategia de datos moderna puede ayudarlo a crear mejores resultados comerciales con datos. AWS proporciona el conjunto de servicios más completo para el viaje de datos de un extremo a otro para ayudarlo a obtener valor de sus datos y convertirlos en información.

En AWS, trabajamos hacia atrás a partir de los requisitos del cliente. Desde el equipo de Lake Formation, trabajamos arduamente para ofrecer las funciones descritas en esta publicación, y lo invitamos a que las revise. Con nuestro enfoque continuo para inventar, esperamos desempeñar un papel clave en el empoderamiento de las organizaciones para crear nuevos modelos de gobierno de datos que lo ayuden a obtener más valor comercial a la velocidad del rayo.

Puede comenzar con Lake Formation explorando nuestro taller práctico módulos y Tutoriales de introducción. Esperamos escuchar de ustedes, nuestros clientes, sobre su lago de datos y casos de uso de gobierno de datos. Póngase en contacto con su equipo de cuenta de AWS y comparta sus comentarios.


Acerca de los autores

Jason Berkowitz es gerente sénior de productos en AWS Lake Formation. Tiene experiencia en aprendizaje automático y arquitecturas de lagos de datos. Él ayuda a los clientes a convertirse en datos.

Aarthi Srinivasan es Arquitecto Senior de Big Data con AWS Lake Formation. Le gusta crear soluciones de lagos de datos para clientes y socios de AWS. Cuando no está en el teclado, explora las últimas tendencias científicas y tecnológicas y pasa tiempo con su familia.

leonardo gomez es arquitecto sénior de soluciones especialista en análisis en AWS. Con sede en Toronto, Canadá, tiene más de una década de experiencia en gestión de datos, ayudando a clientes de todo el mundo a abordar sus necesidades comerciales y técnicas.

punto_img

Información más reciente

punto_img