Logotipo de Zephyrnet

Resumen del año 2023 de AWS Lake Formation | Servicios web de Amazon

Fecha:

Formación del lago AWS y del Pegamento AWS El catálogo de datos forma una parte integral de una solución de gobierno de datos para lagos de datos construidos sobre Servicio de almacenamiento simple de Amazon (Amazon S3) con múltiples servicios de análisis de AWS integrándose con ellos. En 2022, hablamos sobre las mejoras que habíamos realizado en estos servicios. Seguimos escuchando las historias de los clientes y trabajando hacia atrás para incorporar sus pensamientos en nuestros productos. En esta publicación, nos complace resumir los resultados de nuestro arduo trabajo en 2023 para mejorar y simplificar la gobernanza de datos para los clientes.

Anunciamos nuestras nuevas características y capacidades durante AWS re:Invent 2023, como es costumbre cada año. Las siguientes son charlas de re:Invent 2023 que muestran las capacidades de Lake Formation y Data Catalog:

Agrupamos las nuevas capacidades en cuatro categorías:

  • Descubra y asegure
  • Conéctese con el intercambio de datos
  • Escalar y optimizar
  • Auditar y monitorear

Profundicemos y analicemos las nuevas capacidades introducidas en 2023.

Descubra y asegure

Utilizando Lake Formation y el Data Catalog como pilares fundamentales, lanzado Zona de datos de Amazon en octubre de 2023. DataZone es un servicio de administración de datos que hace que sea más rápido y sencillo catalogar, descubrir, compartir y controlar datos almacenados en AWS, en las instalaciones y en fuentes de terceros. Los flujos de trabajo de publicación y suscripción de DataZone mejoran la colaboración entre varios roles de su organización y aceleran el tiempo para obtener información empresarial a partir de sus datos. Puede mejorar los metadatos técnicos del catálogo de datos utilizando asistentes con tecnología de inteligencia artificial en los metadatos comerciales de DataZone, haciéndolos más fáciles de descubrir. DataZone administra automáticamente los permisos de sus datos compartidos en los proyectos de DataZone. Para obtener más información sobre DataZone, consulte la Guía del usuario. ¡Bienvenido en DataZone!

Rastreadores de AWS Glue clasificar datos para determinar el formato, el esquema y las propiedades asociadas de los datos sin procesar, agrupar datos en tablas o particiones y escribir metadatos en el catálogo de datos. En 2023, lanzamos varias actualizaciones para los rastreadores de AWS Glue. Agregamos la posibilidad de traer su versiones personalizadas de controladores JDBC en rastreadores para extraer esquemas de datos de sus fuentes de datos y completar el catálogo de datos. Para optimizar la recuperación de particiones y mejorar el rendimiento de las consultas, agregamos la función para que los rastreadores agregar automáticamente índices de partición para tablas recién descubiertas. Nosotros también rastreadores integrados con Lake Formation, que admite permisos centralizados para el rastreo dentro y entre cuentas de los lagos de datos de S3. Estas son algunas mejoras muy solicitadas que simplifican el descubrimiento de metadatos mediante rastreadores. Crawlers, saludos!

También hemos visto un enorme aumento en el uso de formatos de tabla abierta (OTF) como Linux Foundation Delta Lake, iceberg apachey apache hudi. Para admitir estos OTF populares, agregamos compatibilidad para rastrear de forma nativa estos tres formatos de tablas en el catálogo de datos. Además, trabajamos con otros servicios de análisis de AWS, como EMR de Amazon, para habilitar permisos detallados de Lake Formation en los tres formatos de tabla abierta. Te animamos a explorar qué características de Lake Formation son compatibles con las tablas OTF. ¡Bien integrado!

A medida que las fuentes y los tipos de datos aumentan con el tiempo, es probable que, tarde o temprano, tenga tipos de datos anidados en su lago de datos. Para llevar la gobernanza de datos a estos conjuntos de datos sin aplanarlos, Lake Formation agregó soporte para controles de acceso detallados en tipos de datos y columnas anidados. También agregamos soporte para controles de acceso detallados de Lake Formation mientras se ejecuta Trabajos de Apache Hive en Amazon EMR en EC2 and on Estudio de Amazon EMR. Con Amazon EMR sin servidor, control de acceso detallado con Lake Formation ahora es disponible en vista previa. ¡Conecta los puntos!

En AWS, trabajamos muy de cerca con nuestros clientes para comprender su experiencia. Llegamos a comprender que la incorporación a Lake Formation desde Gestión de identidades y accesos de AWS (IAM) se podrían optimizar los permisos basados ​​en Amazon S3 y AWS Glue Data Catalog. Nos dimos cuenta de que sus casos de uso necesitan más flexibilidad en el gobierno de datos. Con el modo de acceso híbrido En Lake Formation, introdujimos la adición selectiva de permisos de Lake Formation para algunos usuarios y bases de datos, sin interrumpir a otros usuarios ni cargas de trabajo. Puede definir una tabla de catálogo en modo híbrido y otorgar acceso a nuevos usuarios, como analistas y científicos de datos, utilizando Lake Formation mientras sus canalizaciones de extracción, transformación y carga (ETL) de producción continúan usando sus permisos existentes basados ​​en IAM. ¡Doble victoria!

Hablemos de gestión de identidad. Puede utilizar directores de IAM, Vista rápida de Amazon usuarios y grupos, y cuentas externas y entidades principales de IAM en cuentas externas para otorgar acceso a los recursos del catálogo de datos en Lake Formation. ¿Qué pasa con sus identidades corporativas? ¿Necesita crear y mantener múltiples roles de IAM y asignarlos a varias identidades corporativas? Podrías ver el rol de IAM que accedió a la tabla, pero ¿cómo podrías saber qué usuario accedió a ella? Para responder a estas preguntas, Lake Formation integrado con AWS IAM Identity Center y agregó la función para la propagación de identidades confiables. Con esto, puede otorgar permisos de acceso específicos a las identidades del proveedor de identidades existente de su organización. Otro Servicios de análisis de AWS También admite la identidad del usuario que se propagará. Sus auditores ahora pueden ver que el usuario juan@cualquierempresa.com, por ejemplo, había accedido a la tabla administrada por los permisos de Lake Formation usando Atenea amazónica, AmazonEMR y Espectro de Redshift de Amazon. ¡Integración fácil!

Ahora no tiene que preocuparse por mover los datos o copiar el catálogo de datos a otra región de AWS para utilizar los servicios de AWS para el gobierno de datos. Hemos ampliado y hecho Formación de lagos disponible en todas las regiones en el 2023. Et voila!

Conéctese con el intercambio de datos

Lake Formation proporciona una forma sencilla de compartir objetos del catálogo de datos, como bases de datos y tablas, con usuarios internos y externos. Este mecanismo brinda a las organizaciones un acceso rápido y seguro a los datos y acelera la toma de decisiones comerciales. Repasemos las nuevas funciones y mejoras realizadas en 2023 bajo este tema.

El catálogo de datos de AWS Glue es el componente central y fundamental del gobierno de datos tanto para Lake Formation como para DataZone. En 2023, ampliamos el Catálogo de Datos a través de la federación para integrar con metastores externos de Apache Hive y recursos compartidos de datos de corrimiento al rojo. También pusimos a disposición el código del conector, que puede personalizar para conectar el catálogo de datos con metaalmacenes adicionales compatibles con Apache Hive. Estas integraciones allanan el camino para obtener más metadatos en el catálogo de datos y permiten controles de acceso detallados y el intercambio de estos recursos entre cuentas de AWS sin esfuerzo con permisos de Lake Formation. También agregamos soporte para acceder a la tabla del catálogo de datos de una región desde otras regiones usando enlaces de recursos entre regiones. Esta mejora simplifica muchos casos de uso para evitar la duplicación de metadatos.

Con la Federación del lago AWS CloudTrail Con esta función, puede descubrir, analizar, unir y compartir datos de CloudTrail Lake con otras fuentes de datos en Data Catalog. Para CloudTrail Lake, los controles de acceso detallados y las capacidades de consulta y visualización están disponibles a través de Athena.

Ampliamos aún más las capacidades del catálogo de datos para admitir uniformes vistas a través de su lago de datos. Puede crear vistas utilizando diferentes dialectos SQL y realizar consultas desde Athena, Redshift Spectrum y Amazon EMR. Esto le permite mantener los permisos a nivel de vista y no compartir las tablas individuales. La función de vistas del catálogo de datos es disponible en vista previa, anunciado en re:Invent 2023.

Escalar y optimizar

A medida que las consultas SQL se vuelven más complejas con los cambios de datos a lo largo del tiempo o tienen múltiples uniones, un optimizador basado en costos (CBO) puede impulsar optimizaciones en el plan de consultas y generar un rendimiento más rápido, según las estadísticas de los datos en las tablas. En 2023, agregamos soporte para estadísticas a nivel de columna para tablas en el catálogo de datos. Los clientes ya están viendo mejoras en el rendimiento de las consultas en Athena y Redshift Spectrum, con las estadísticas de columnas de la tabla activadas. Suivez les chiffres!

El control de acceso basado en etiquetas elimina la necesidad de actualizar sus políticas cada vez que se agrega un nuevo recurso al lago de datos. En su lugar, los administradores del lago de datos crean etiquetas de formación de lago (etiquetas LF) para etiquetar objetos del catálogo de datos y otorgar acceso en función de estas etiquetas LF a usuarios y grupos. En 2023, agregamos soporte para Delegación de etiquetas LF, donde los administradores del lago de datos pueden otorgar permisos a los administradores de datos y otros usuarios para administrar etiquetas LF sin necesidad de privilegios de administrador. ¡democratización del LF-Tag!

El formato Apache Iceberg utiliza metadatos para realizar un seguimiento de los archivos de datos que componen la tabla. Los cambios en las tablas, como inserciones o actualizaciones, dan como resultado la creación de nuevos archivos de datos. A medida que crece el número de archivos de datos para una tabla, las consultas que utilizan esa tabla pueden volverse menos eficientes. Para mejorar el rendimiento de las consultas en la tabla Iceberg, debe reducir la cantidad de archivos de datos compactando los archivos de captura de cambios más pequeños en archivos más grandes. Los usuarios suelen crear y ejecutar scripts para optimizar estos archivos de tablas Iceberg en sus propios servidores o mediante AWS Glue ETL. Para aliviar este complejo mantenimiento de las mesas Iceberg, los clientes se acercaron a nosotros en busca de una mejor solución. Introducimos la función para Compactación automática de mesas Apache Iceberg en el catálogo de datos. Después de activar la compactación automática, el catálogo de datos administra automáticamente los metadatos de la tabla y le brinda un diseño de Amazon S3 siempre optimizado para sus tablas Iceberg. Para obtener más información, consulte Optimización de tablas Iceberg. ¡Automático!

Auditar y monitorear

Saber quién tiene acceso a qué datos es un componente crítico de la gobernanza de datos. Los auditores deben validar que se establezcan los permisos de datos y metadatos correctos en Lake Formation y el catálogo de datos. Los administradores del lago de datos tienen acceso total a los permisos y metadatos, y pueden otorgar acceso a los datos mismos. Para brindarles a los auditores una opción para buscar y revisar permisos de metadatos sin otorgarles acceso para realizar cambios en los permisos, presentamos la rol de administrador de solo lectura en la Formación del Lago. Esta función le permite auditar los metadatos del catálogo y los permisos y etiquetas LF de Lake Formation, al tiempo que le impide realizar cambios en ellos.

Conclusión

Tuvimos un 2023 increíble, desarrollando mejoras de productos para ayudarlo a simplificar y mejorar su gestión de datos utilizando Lake Formation y Data Catalog. Te invitamos a probar estas nuevas funciones. La siguiente es una lista de nuestras publicaciones de lanzamiento como referencia:

  • Características del catálogo de datos y del rastreador:
  • Características de la formación del lago:

Continuaremos innovando en nombre de nuestros clientes en 2024. Comparta sus ideas, casos de uso y comentarios sobre las mejoras de nuestros productos en la sección de comentarios o a través de los equipos de su cuenta de AWS. Les deseamos un feliz y próspero 2024. ¡Feliz año!


Sobre los autores

Aarthi Srinivasan es Arquitecto Senior de Big Data con AWS Lake Formation. Le gusta crear soluciones de lagos de datos para clientes y socios de AWS. Cuando no está en el teclado, explora las últimas tendencias científicas y tecnológicas y pasa tiempo con su familia.

León Stigter es gerente técnico senior de productos en AWS Lake Formation. El objetivo de Leon es ayudar a los desarrolladores a crear lagos de datos más rápido, con una conectividad perfecta a herramientas analíticas, para transformar los datos en conocimientos revolucionarios. A Leon le interesan los datos y las tecnologías sin servidor, y le gusta explorar diferentes ciudades en su misión de probar tarta de queso dondequiera que vaya.

punto_img

Información más reciente

punto_img