Logotipo de Zephyrnet

Consulte su metastore de Apache Hive con permisos de AWS Lake Formation | Servicios web de Amazon

Fecha:

Colmena Apache es un sistema de almacenamiento de datos basado en SQL para procesar conjuntos de datos altamente distribuidos en la plataforma Apache Hadoop. Hay dos componentes clave para Apache Hive: el motor de consulta SQL de Hive y el metastore de Hive (HMS). El metaalmacén de Hive es un depósito de metadatos sobre las tablas SQL, como nombres de bases de datos, nombres de tablas, esquemas, información de serialización y deserialización, ubicación de datos y detalles de partición de cada tabla. Apache Hive, Apache Spark, Presto y Trino pueden usar Hive Metastore para recuperar metadatos para ejecutar consultas. El metastore de Hive se puede alojar en un clúster de Apache Hadoop o puede estar respaldado por una base de datos relacional externa a un clúster de Hadoop. Aunque Hive metastore almacena los metadatos de las tablas, los datos reales de la tabla podrían residir en Servicio de almacenamiento simple de Amazon (Amazon S3), el sistema de archivos distribuidos de Hadoop (HDFS) del clúster de Hadoop o cualquier otro almacén de datos compatible con Hive.

Debido a que Apache Hive se creó sobre Apache Hadoop, muchas organizaciones han estado usando el software desde el momento en que usaban Hadoop para el procesamiento de big data. Además, Hive metastore proporciona una integración flexible con muchos otros software de big data de código abierto como Apache HBase, Apache Spark, Presto y Apache Impala. Por lo tanto, las organizaciones han llegado a alojar grandes volúmenes de metadatos de sus conjuntos de datos estructurados en el metaalmacén de Hive. Un metastore es una parte crítica de un lago de datos, y es importante tener esta información disponible, dondequiera que resida. Sin embargo, muchos servicios de análisis de AWS no se integran de forma nativa con el metastore de Hive y, por lo tanto, las organizaciones han tenido que migrar sus datos al Pegamento AWS Catálogo de datos para utilizar estos servicios.

Formación del lago AWS ha lanzado soporte para administrar el acceso de los usuarios a las metatiendas de Apache Hive a través de una conexión federada de AWS Glue. Anteriormente, podía usar Lake Formation para administrar los permisos de usuario en Catálogo de datos de AWS Glue recursos solamente. Con la conexión de la metatienda de Hive desde AWS Glue, puede conectarse a una base de datos en una metatienda de Hive externa al catálogo de datos, asignarla a una base de datos federada en el catálogo de datos, aplicar permisos de Lake Formation en la base de datos y las tablas de Hive, compartirlas con otras cuentas de AWS y consultarlas mediante servicios como Atenea amazónica, Espectro de Redshift de Amazon, EMR de Amazony AWS Glue ETL (extracción, transformación y carga). Para obtener detalles adicionales sobre cómo funciona la integración de Hive metastore con Lake Formation, consulte Administrar permisos en conjuntos de datos que usan metaalmacenes externos.

Los casos de uso para la integración de Hive metastore con Data Catalog incluyen lo siguiente:

  • Un metastore de Apache Hive externo utilizado para cargas de trabajo de big data heredadas, como clústeres de Hadoop locales con datos en Amazon S3
  • Cargas de trabajo transitorias de Amazon EMR con datos subyacentes en Amazon S3 y Hive metastore en Servicio de base de datos relacional de Amazon (Amazon RDS) clústeres.

En esta publicación, demostramos cómo aplicar los permisos de Lake Formation en una base de datos y tablas de metastore de Hive y consultarlos con Athena. Ilustramos un caso de uso de uso compartido entre cuentas, en el que un administrador de Lake Formation en la cuenta de productor A comparte una base de datos y tablas de Hive federadas mediante etiquetas LF con la cuenta de consumidor B.

Resumen de la solución

La cuenta de productor A aloja un metaalmacén de Apache Hive en un clúster de EMR, con datos subyacentes en Amazon S3. Lanzamos el conector metastore de AWS Glue Hive desde Repositorio de aplicaciones sin servidor de AWS en la cuenta A y cree la conexión de metastore de Hive en el catálogo de datos de la cuenta A. Después de crear la conexión HMS, creamos una base de datos en el catálogo de datos de la cuenta A (llamada base de datos federada) y la asignamos a una base de datos en el metaalmacén de Hive usando la conexión. Luego, el administrador de Lake Formation en la cuenta A puede acceder a las tablas de la base de datos de Hive, al igual que cualquier otra tabla en el catálogo de datos. El administrador continúa configurando el control de acceso basado en etiquetas de Lake Formation (LF-TBAC) en la base de datos federada de Hive y lo comparte con la cuenta B.

Los usuarios del lago de datos en la cuenta B accederán a la base de datos de Hive y a las tablas de la cuenta A, al igual que consultar cualquier otro recurso compartido del catálogo de datos utilizando los permisos de Lake Formation.

El siguiente diagrama ilustra esta arquitectura.

La solución consta de pasos en ambas cuentas. En la cuenta A, realice los siguientes pasos:

  1. Cree un depósito de S3 para alojar los datos de muestra.
  2. Inicie un clúster de EMR 6.10 con Hive. Descargue los datos de muestra en el depósito de S3. Cree una base de datos y tablas externas, apuntando a los datos de muestra descargados, en su metaalmacén de Hive.
  3. Implementar la aplicación GlueDataCatalogFederation-HiveMetastore de AWS Serverless Application Repository y configúrelo para usar el metastore de Amazon EMR Hive. Esto creará una conexión de AWS Glue al metastore de Hive que aparece en la consola de Lake Formation.
  4. Con la conexión de metastore de Hive, cree una base de datos federada en AWS Glue Data Catalog.
  5. Cree etiquetas LF y asócielas a la base de datos federada.
  6. Otorgue permisos en las etiquetas LF a la cuenta B. Otorgue permisos de base de datos y tablas a la cuenta B mediante expresiones de etiquetas LF.

En la cuenta B, realice los siguientes pasos:

  1. Como administrador del lago de datos, revise y acepte el Administrador de acceso a recursos de AWS (AWS RAM) invita a los recursos compartidos de la cuenta A.
  2. El administrador del lago de datos luego ve la base de datos y las tablas compartidas. El administrador crea un enlace de recursos a la base de datos y otorga permisos detallados a un analista de datos en esta cuenta.
  3. Tanto el administrador del lago de datos como el analista de datos consultan las tablas de Hive que están disponibles para ellos mediante Athena.

La cuenta A tiene las siguientes personas:

  • hmsblog-productor mayordomo – Administra el lago de datos en la cuenta del productor A

La cuenta B tiene las siguientes personas:

  • hmsblog-consumidor mayordomo – Administra el lago de datos en la cuenta del consumidor B
  • hmsblog-analista – Un analista de datos que necesita acceso a tablas de Hive seleccionadas

Requisitos previos

Para seguir el tutorial de este post, necesitas lo siguiente:

Configuración de Lake Formation y AWS CloudFormation en la cuenta A

Para simplificar la configuración, tenemos un administrador de IAM registrado como administrador del lago de datos. Complete los siguientes pasos:

  1. Iniciar sesión en el Consola de administración de AWS Y elige la us-west-2 Región.
  2. En la consola de Lake Formation, debajo Permisos en el panel de navegación, elija Funciones y tareas administrativas.
  3. Elige Gestiona administradores existentes Administradores de lago de datos .
  4. under Usuarios y roles de IAM, elija el usuario administrador de IAM con el que ha iniciado sesión y elija Guardar.
  5. Elige Pila de lanzamiento para implementar la plantilla de CloudFormation:
  6. Elige Siguiente.
  7. Proporcione un nombre para la pila y elija Siguiente.
  8. En la página siguiente, elija Siguiente.
  9. Revise los detalles en la página final y seleccione Reconozco que AWS CloudFormation podría crear recursos de IAM.
  10. Elige Crear.

La creación de la pila tarda unos 10 minutos. La pila establece la configuración de la cuenta del productor A de la siguiente manera:

  • Crea un depósito de lago de datos S3
  • Registra el depósito del lago de datos en Lake Formation con el Habilitar la federación de catálogos bandera
  • Lanza un clúster de EMR 6.10 con Hive y ejecuta dos pasos en Amazon EMR:
    • Descarga los datos de muestra del depósito público de S3 al depósito recién creado
    • Crea una base de datos de Hive y cuatro tablas externas para los datos en Amazon S3 mediante un script HQL
  • Crea un usuario de IAM (hmsblog-producersteward) y establece este usuario como administrador de Lake Formation
  • Crea etiquetas LF (LFHiveBlogCampaignRole = Admin, Analyst)

Revise la salida de la pila de CloudFormation en la cuenta A

Para revisar el resultado de su pila de CloudFormation, complete los siguientes pasos:

  1. Inicie sesión en la consola como el usuario administrador de IAM que utilizó anteriormente para ejecutar la plantilla de CloudFormation.
  2. Abra la consola de CloudFormation en otra pestaña del navegador.
  3. Revisa y anota la pila Salidas detalles de la pestaña.
  4. Elija el enlace debajo Valor para ProducerStewardCredentials.

Esto abrirá la Director de secretos de AWS consola.

  1. Elige Recuperar valor y anotar las credenciales de hmsblog-producersteward.

Configure una conexión de AWS Glue federada en la cuenta A

Para configurar una conexión de AWS Glue federada, complete los siguientes pasos:

  1. Abra la consola del repositorio de aplicaciones sin servidor de AWS en otra pestaña del navegador.
  2. En el panel de navegación, elija Aplicaciones disponibles.
  3. Seleccione Mostrar aplicaciones que crean funciones de IAM personalizadas o políticas de recursos.
  4. En la barra de búsqueda, ingresa Pegamento.

Esto enumerará varias aplicaciones.

  1. Elija la aplicación nombrada GlueDataCatalogFederation-HiveMetastore.

Esto abrirá la AWS Lambda página de configuración de la consola para una función de Lambda que ejecuta el código de la aplicación del conector.

Para configurar la función Lambda, necesita detalles del clúster de EMR lanzado por la pila de CloudFormation.

  1. En otra pestaña de su navegador, abra la consola de Amazon EMR.
  2. Navegue hasta el clúster lanzado para esta publicación y anote los siguientes detalles de la página de detalles del clúster:
    1. DNS público del nodo principal
    2. ID de subred
    3. Id. de grupo de seguridad del nodo principal

  3. De vuelta en la página de configuración de Lambda, en Revisar, configurar e implementar, En la Configuración de la aplicación sección, proporcione los siguientes detalles. Deje el resto como los valores predeterminados.
    1. PegamentoConexiónNombre, introduzca hive-metastore-connection.
    2. HiveMetastoreURI entrar thrift://<Primary-node-public-DNS-of your-EMR>:9083. For example, thrift://ec2-54-70-203-146.us-west-2.compute.amazonaws.com:9083, Donde 9083 es el puerto de metastore de Hive en el clúster de EMR.
    3. ID de grupo de seguridad VPCS, ingrese el ID del grupo de seguridad del nodo principal de EMR.
    4. ID de subred VPCS, ingrese el ID de subred del clúster de EMR.
  4. Elige Despliegue.

Esperen al Crear completado estado de la aplicación Lambda. Puede revisar los detalles de la aplicación Lambda en la consola de Lambda.

  1. Abra la consola Lake Formation y, en el panel de navegación, elija Compartir datos.

Debería ver hive-metastore-connection bajo Conexiones.

  1. Elígelo y revisa los detalles.
  2. En el panel de navegación, debajo Funciones y tareas administrativas, escoger Etiquetas LF.

Debería ver la etiqueta LF creada LFHiveBlogCampaignRole con dos valores: Analyst y Admin.

  1. Elige Permisos de etiqueta LF y elige Grant.
  2. Elige Usuarios y roles de IAM e introduzca hmsblog-producersteward.
  3. under Etiquetas LF, escoger Agregar etiqueta LF.
  4. Participar LFHiveBlogCampaignRole para Clave e introduzca Analyst y Admin para Valores.
  5. under Permisos, seleccione Describir y Consejos para Permisos de etiqueta LF y Permisos concedidos.
  6. Elige Grant.

Esto otorga permisos de LF-Tags para el administrador del productor.

  1. Cierre sesión como usuario administrador de IAM.

Otorgar permisos de Lake Formation como administrador de productores

Complete los siguientes pasos:

  1. Inicie sesión en la consola como hmsblog-producersteward, utilizando las credenciales de la pila de CloudFormation Salida pestaña que anotó anteriormente.
  2. En la consola de Lake Formation, en el panel de navegación, elija Funciones y tareas administrativas.
  3. under creadores de bases de datos, escoger Grant.
  4. Añada hmsblog-producersteward como creador de base de datos.
  5. En el panel de navegación, elija Compartir datos.
  6. under Conexiones, elegir la hive-metastore-connection hiperenlace.
  7. En Detalles de conexión página, elige Crear base de datos.
  8. Nombre de la base de datos, introduzca federated_emrhivedb.

Esta es la base de datos federada en el AWS Glue Data Catalog local que apuntará a una base de datos metastore de Hive. Esta es una asignación uno a uno de una base de datos en el catálogo de datos a una base de datos en el almacén de metadatos de Hive externo.

  1. Identificador de base de datos, ingrese el nombre de la base de datos en el almacén de metadatos de Hive de EMR que fue creado por el script Hive SQL. Para esta publicación, usamos emrhms_salesdb.
  2. Una vez creado, seleccione federated_emrhivedb y elige Ver tablas.

Esto obtendrá los metadatos de la tabla y la base de datos del almacén de metadatos de Hive en el clúster de EMR y mostrará las tablas creadas por el script de Hive.

Ahora asocie las etiquetas LF creadas por el script de CloudFormation en esta base de datos federada y compártalas con la cuenta de consumidor B mediante expresiones de etiquetas LF.

  1. En el panel de navegación, elija Bases de datos.
  2. Seleccione federated_emrhivedb y en la Acciones menú, seleccione Editar etiquetas LF.
  3. Elige Asignar nueva etiqueta LF.
  4. Participar LFHiveBlogCampaignRole para Teclas asignadas y Admin para Valores, A continuación, elija Guardar.
  5. En el panel de navegación, elija Permisos del lago de datos.
  6. Elige Grant.
  7. Seleccione Cuentas externas e ingrese el número de cuenta B del consumidor.
  8. under LF-Tags o recursos del catálogo, escoger Recurso emparejado por etiquetas LF.
  9. Elige Agregar etiqueta LF.
  10. Participar LFHiveBlogCampaignRole para Clave y Admin para Valores.
  11. En Permisos de la base de datos sección, seleccionar Describir para Permisos de la base de datos y Permisos concedidos.
  12. En Permisos de mesa sección, seleccionar Seleccionar y describir para Permisos de mesa y Permisos concedidos.
  13. Elige Grant.
  14. En el panel de navegación, debajo Funciones y tareas administrativas, escoger Permisos de etiqueta LF.
  15. Elige Grant.
  16. Seleccione Cuentas externas e ingrese el ID de cuenta de la cuenta de consumidor B.
  17. under Etiquetas LF, introduzca LFHiveBlogCampaignRole para Clave e introduzca Analyst y Admin para Valores.
  18. under Permisos, seleccione Describir y Consejos bajo Permisos de etiqueta LF y Permisos concedidos.
  19. Elige Grant y verifique que los permisos de etiqueta LF otorgados se muestren correctamente.
  20. En el panel de navegación, elija Permisos del lago de datos.

Puede revisar y verificar los permisos otorgados a la cuenta B.

  1. En el panel de navegación, debajo Funciones y tareas administrativas, escoger Permisos de etiqueta LF.

Puede revisar y verificar los permisos otorgados a la cuenta B.

  1. Cerrar sesión en la cuenta A.

Configuración de Lake Formation y AWS CloudFormation en la cuenta B

Para simplificar la configuración, usamos un administrador de IAM registrado como administrador del lago de datos.

  1. Iniciar sesión en el Consola de administración de AWS de la cuenta B y seleccione el us-west-2 Región.
  2. En la consola de Lake Formation, debajo Permisos en el panel de navegación, elija Funciones y tareas administrativas.
  3. Elige Administrar administradores existentes Administradores de lago de datos .
  4. En Usuarios y roles de IAM, elija el usuario administrador de IAM con el que inició sesión y elija Guardar.
  5. Elige Pila de lanzamiento para implementar la plantilla de CloudFormation:
  6. Elige Siguiente.
  7. Proporcione un nombre para la pila y elija Siguiente.
  8. En la página siguiente, elija Siguiente.
  9. Revise los detalles en la página final y seleccione Reconozco que AWS CloudFormation podría crear recursos de IAM.
  10. Elige Crear.

La creación de la pila debería llevar unos 5 minutos. La pila establece la configuración de la cuenta B del productor de la siguiente manera:

  • Crea un usuario de IAM hmsblog-consumersteward y establece a este usuario como administrador de Lake Formation
  • Crea otro usuario de IAM hmsblog-analyst
  • Crea un depósito de lago de datos de S3 para almacenar los resultados de las consultas de Athena, con ListBucket y escribir permisos de objeto para ambos hmsblog-consumersteward y hmsblog-analyst

Anote los detalles de salida de la pila.

Aceptar recursos compartidos en la cuenta B

Inicie sesión en la consola como hmsblog-consumersteward y completa los siguientes pasos:

  1. En la consola de AWS CloudFormation, vaya a la pila Salidas .
  2. Elija el enlace para ConsumerStewardCredentials para ser redirigido a la consola de Secrets Manager.
  3. En la consola de Secrets Manager, elija Recuperar valor secreto y copie la contraseña para el usuario administrador del consumidor.
  4. Ingrese al ConsoleIAMLoginURL valor de la plantilla de CloudFormation Salida para iniciar sesión en la cuenta B con el nombre de usuario del administrador del consumidor hmsblog-consumersteward y la contraseña que copió de Secrets Manager.
  5. Abra la consola de RAM de AWS en otra pestaña del navegador.
  6. En el panel de navegación, debajo Comparte conmigo, escoger Recursos compartidos para ver las invitaciones pendientes.

Debería ver dos invitaciones para compartir recursos de la cuenta A del productor: una para un recurso compartido a nivel de base de datos y otra para un recurso compartido a nivel de tabla.

  1. Elija cada enlace para compartir recursos, revise los detalles y elija Aceptar.

Después de aceptar las invitaciones, el estado de los recursos compartidos cambia de Pendiente a Active.

  1. Abra la consola de Lake Formation en otra pestaña del navegador.
  2. En el panel de navegación, elija Bases de datos.

Deberías ver la base de datos compartida. federated_emrhivedb de la cuenta del productor A.

  1. Elija la base de datos y elija Ver tablas para revisar la lista de tablas compartidas en esa base de datos.

Debería ver las cuatro tablas de la base de datos de Hive que está alojada en el clúster de EMR en la cuenta del productor.

Otorgar permisos en la cuenta B

Para otorgar permisos en la cuenta B, complete los siguientes pasos como hmsblog-consumersteward:

  1. En la consola de Lake Formation, en el panel de navegación, elija Funciones y tareas administrativas.
  2. under creadores de bases de datos, escoger Grant.
  3. Usuarios y roles de IAM, introduzca hmsblog-consumersteward.
  4. Permisos de catálogo, seleccione Crear base de datos.
  5. Elige Grant.

Esto permite hmsblog-consumersteward para crear un enlace de recursos de base de datos.

  1. En el panel de navegación, elija Bases de datos.
  2. Seleccione federated_emrhivedb y en la Acciones menú, seleccione Crear enlace de recursos.
  3. Participar rl_federatedhivedb para Nombre del enlace de recurso y elige Crear.
  4. Elige Bases de datos en el panel de navegación.
  5. Seleccione el enlace del recurso rl_federatedhivedb y en la Acciones menú, seleccione Grant.
  6. Elige hmsblog-analyst para Usuarios y roles de IAM.
  7. under Permisos de enlace de recursos, seleccione Describir, A continuación, elija Grant.
  8. Seleccione Bases de datos en el panel de navegación.
  9. Seleccione el enlace del recurso rl_federatedhivedb y en la Acciones menú, seleccione Otorgar en el objetivo.
  10. Elige hmsblog-analyst para Usuarios y roles de IAM.
  11. Elige hms_productcategory y hms_supplier para Mesas.
  12. Permisos de mesa, seleccione Seleccione y Describir, A continuación, elija Grant.
  13. En el panel de navegación, elija Permisos del lago de datos y revisar los permisos otorgados a hms-analyst.

Consulta la base de datos Apache Hive del productor desde el consumidor Athena

Complete los siguientes pasos:

  1. En la consola de Athena, vaya al editor de consultas.
  2. Elige Editar la configuración para configurar los resultados de la consulta de Athena.
  3. Examine y elija el depósito S3 hmsblog-athenaresults-<your-account-B>-us-west-2 que creó la plantilla de CloudFormation.
  4. Elige Guardar.

hmsblog-consumersteward tiene acceso a las cuatro mesas bajo federated_emrhivedb de la cuenta del productor.

  1. En el editor de consultas de Athena, elija la base de datos rl_federatedhivedb y ejecutar una consulta en cualquiera de las tablas.

Pudo consultar una base de datos externa de Metastore de Apache Hive de la cuenta del productor a través de los permisos de AWS Glue Data Catalog y Lake Formation utilizando Athena desde la cuenta del consumidor del destinatario.

  1. Sal de la consola como hmsblog-consumersteward y vuelva a iniciar sesión como hmsblog-analyst.
  2. Use el mismo método que se explicó anteriormente para obtener las credenciales de inicio de sesión de la pila de CloudFormation Salidas .

hmsblog-analyst tiene permisos Describir en el enlace de recursos y acceso a dos de las cuatro tablas de Hive. Puedes verificar que los ves en el Bases de datos y Mesas páginas en la consola Lake Formation.

En la consola de Athena, ahora configura el depósito de resultados de consultas de Athena, de forma similar a como lo configuró como hmsblog-consumersteward.

  1. En el editor de consultas, elija Editar la configuración.
  2. Examine y elija el depósito S3 hmsblog-athenaresults-<your-account-B>-us-west-2 que creó la plantilla de CloudFormation.
  3. Elige Guardar.
  4. En el editor de consultas de Athena, elija la base de datos rl_federatedhivedb y ejecute una consulta en las dos tablas.
  5. Sal de la consola como hmsblog-analyst.

Pudo restringir el uso compartido de tablas de metastore de Apache Hive externas mediante los permisos de Lake Formation de una cuenta a otra y consultarlas mediante Athena. También puede consultar las tablas de Hive con Redshift Spectrum, Amazon EMR y AWS Glue ETL desde la cuenta del consumidor.

Limpiar

Para evitar incurrir en cargos por los recursos de AWS creados en esta publicación, puede realizar los siguientes pasos.

Limpiar recursos en la cuenta A

Hay dos pilas de CloudFormation asociadas con la cuenta de productor A. Debe eliminar las dependencias y las dos pilas en el orden correcto.

  1. Inicie sesión como usuario administrador en la cuenta de productor B.
  2. En la consola de Lake Formation, elija Permisos del lago de datos en el panel de navegación.
  3. Elige Grant.
  4. Otorgue permisos Drop a su rol o usuario en federated_emrhivedb.
  5. En el panel de navegación, elija Bases de datos.
  6. Seleccione federated_emrhivedb y en la Acciones menú, seleccione Borrar para eliminar la base de datos federada que está asociada con la conexión de metastore de Hive.

Esto hace que la pila de CloudFormation de la conexión de AWS Glue esté lista para ser eliminada.

  1. En el panel de navegación, elija Funciones y tareas administrativas.
  2. under creadores de bases de datos, seleccione Revocar y quitar hmsblog-producersteward permisos
  3. En la consola de CloudFormation, elimine la pila denominada serverlessrepo-GlueDataCatalogFederation-HiveMetastore de antemano.

Este es el creado por su aplicación AWS SAM para la conexión de metastore de Hive. Espere a que se complete la eliminación.

  1. Elimine la pila de CloudFormation que creó para la configuración de la cuenta del productor.

Esto elimina los depósitos de S3, el clúster de EMR, las funciones y políticas de IAM personalizadas y las etiquetas LF, la base de datos, las tablas y los permisos.

Limpiar recursos en la cuenta B

Complete los siguientes pasos en la cuenta B:

  1. Revocar el permiso para hmsblog-consumersteward como creador de la base de datos, similar a los pasos de la sección anterior.
  2. Elimine la pila de CloudFormation que creó para la configuración de la cuenta del consumidor.

Esto elimina los usuarios de IAM, el depósito S3 y todos los permisos de Lake Formation.

Si quedan enlaces de recursos y permisos, elimínelos manualmente en Lake Formation desde ambas cuentas.

Conclusión

En esta publicación, le mostramos cómo iniciar la aplicación de federación de metastore de AWS Glue Hive desde el repositorio de aplicaciones sin servidor de AWS, configurarla con un metastore de Hive que se ejecuta en un clúster de EMR, crear una base de datos federada en AWS Glue Data Catalog y asignarla a una base de datos de metastore de Hive en el clúster de EMR. Ilustramos cómo compartir y acceder a las tablas de la base de datos de Hive para un escenario de varias cuentas y los beneficios de usar Lake Formation para restringir los permisos.

Todas las funciones de Lake Formation, como compartir con principales de IAM dentro de la misma cuenta, compartir con cuentas externas, compartir con principales de IAM de cuentas externas, restringir el acceso a columnas y configurar filtros de datos, funcionan en bases de datos y tablas federadas de Hive. Puede utilizar cualquiera de los servicios de análisis de AWS que están integrados con Lake Formation, como Athena, Redshift Spectrum, AWS Glue ETL y Amazon EMR para consultar las tablas y la base de datos federada de Hive.

Lo alentamos a que consulte las características del conector de federación de metastore de AWS Glue Hive y explore los permisos de Lake Formation en su base de datos y tablas de Hive. Comente esta publicación o hable con su equipo de cuenta de AWS para compartir comentarios sobre esta función.

Para más detalles, consulte Administrar permisos en conjuntos de datos que usan metaalmacenes externos.


Sobre los autores

Aarthi Srinivasan es Arquitecto Senior de Big Data con AWS Lake Formation. Le gusta crear soluciones de lagos de datos para clientes y socios de AWS. Cuando no está en el teclado, explora las últimas tendencias científicas y tecnológicas y pasa tiempo con su familia.

punto_img

Información más reciente

punto_img