Logotipo de Zephyrnet

Prepare y cargue datos de Amazon S3 en Teradata utilizando AWS Glue a través de su conector nativo para Teradata Vantage | Servicios web de Amazon

Fecha:

En esta publicación, exploramos cómo usar el Pegamento AWS Conector nativo para Teradata Vantage para optimizar las integraciones de datos y desbloquear todo el potencial de sus datos.

Las empresas a menudo dependen de Servicio de almacenamiento simple de Amazon (Amazon S3) para almacenar grandes cantidades de datos de diversas fuentes de datos de forma rentable y segura. Para quienes utilizan Teradata para el análisis de datos, las integraciones a través del conector nativo de AWS Glue para Teradata Vantage abren nuevas posibilidades. AWS Glue mejora la flexibilidad y la eficiencia de la gestión de datos, permitiendo a las empresas integrar perfectamente sus datos, independientemente de su ubicación, con las capacidades analíticas de Teradata. Este nuevo conector elimina los obstáculos técnicos relacionados con la configuración, la seguridad y la administración, lo que permite a las empresas exportar o importar sin esfuerzo sus conjuntos de datos a Teradata Vantage. Como resultado, las empresas pueden centrarse más en extraer información significativa de sus datos, en lugar de lidiar con las complejidades de la integración de datos.

AWS Glue es un servicio de integración de datos sin servidor que facilita a los usuarios de análisis descubrir, preparar, mover e integrar datos de múltiples fuentes para análisis, aprendizaje automático (ML) y desarrollo de aplicaciones. Con AWS Glue, puede descubrir y conectarse a más de 100 fuentes de datos diversas y administrar sus datos en un catálogo de datos centralizado. Puede crear, ejecutar y monitorear visualmente canalizaciones de extracción, transformación y carga (ETL) para cargar datos en sus lagos de datos.

Corporación Teradata es una plataforma de datos multinube conectada líder para análisis empresarial, centrada en ayudar a las empresas a utilizar todos sus datos en toda la empresa, a escala. como un Competencia en análisis y datos de AWS Como socio, Teradata ofrece una plataforma completa de datos y análisis en la nube, incluido el aprendizaje automático.

Presentamos el conector nativo de AWS Glue para Teradata Vantage

AWS Glue brinda soporte para Teradata, accesible a través de scripts AWS Glue Studio y AWS Glue ETL. Con AWS Glue Studio, se beneficiará de una interfaz visual que simplifica el proceso de conexión a Teradata y la creación, ejecución y supervisión de trabajos ETL de AWS Glue. Para los desarrolladores de datos, este soporte se extiende a los scripts ETL de AWS Glue, donde pueden usar Python o Scala para crear y administrar tareas de transformación e integración de datos más específicas.

El conector nativo de AWS Glue para Teradata Vantage le permite leer y escribir datos de Teradata de manera eficiente sin la necesidad de instalar ni administrar bibliotecas de conectores. Puede agregar Teradata como origen y destino dentro de la interfaz visual sin código de arrastrar y soltar de AWS Glue Studio o usar el conector directamente en un trabajo de script ETL de AWS Glue.

Resumen de la solución

En este ejemplo, utiliza AWS Glue Studio para enriquecer y cargar datos almacenados en Amazon S3 en Teradata Vantage. Empiece por unirse a los archivos de Evento y Lugar desde el TICKET conjunto de datos. A continuación, filtra los resultados a una única región geográfica. Finalmente, carga los datos refinados en Teradata Vantage.

El conjunto de datos TICKIT rastrea la actividad de ventas del sitio web ficticio TICKIT, donde los usuarios compran y venden entradas en línea para eventos deportivos, espectáculos y conciertos. En este conjunto de datos, los analistas pueden identificar el movimiento de entradas a lo largo del tiempo, las tasas de éxito de los vendedores y los eventos, lugares y temporadas más vendidos.

En este ejemplo, utilizará AWS Glue Studio para desarrollar una canalización ETL visual. Esta canalización leerá datos de Amazon S3, realizará transformaciones y luego cargará los datos transformados en Teradata. El siguiente diagrama ilustra esta arquitectura.

Descripción general de la solución

Al final de esta publicación, su trabajo visual de ETL se parecerá a la siguiente captura de pantalla.

Flujo de trabajo visual ETL

Requisitos previos

Para este ejemplo, debe tener acceso a un punto final de base de datos de Teradata existente con capacidad de acceso a la red desde AWS y permisos para crear tablas y cargar y consultar datos.

AWS Glue necesita acceso a la red de Teradata para leer o escribir datos. La forma en que se configura depende de dónde esté implementado Teradata y la configuración de red específica. Para Teradata implementado en AWS, es posible que deba configurar Emparejamiento de VPC or Enlace privado de AWS, grupos de seguridad y listas de control de acceso a la red (NACL) para permitir que AWS Glue se comunique con Teradata overt TCP. Si Teradata está fuera de AWS, los servicios de red como VPN de sitio a sitio de AWS or AWS Direct Connect puede ser requerido. No se recomienda el acceso público a Internet debido a riesgos de seguridad. Si elige el acceso público, es más seguro ejecutar el trabajo de AWS Glue en una VPC detrás de un Puerta de enlace NAT. Este enfoque le permite permitir listar solo una dirección IP para el tráfico entrante en el firewall de su red. Para obtener más información, consulte Seguridad de la infraestructura en AWS Glue.

Configurar Amazon S3

Cada objeto de Amazon S3 se almacena en un depósito. Antes de poder almacenar datos en Amazon S3, debe crear un cubo S3 para almacenar los resultados. Complete los siguientes pasos:

  1. En la consola de Amazon S3, elija cubos en el panel de navegación.
  2. Elige Crear cubeta.
  3. Nombre, ingrese un nombre global único para su depósito; por ejemplo, tickit8530923.
  4. Elige Crear cubeta.
  5. Descargue nuestra TICKET conjunto de datos y descomprímalo.
  6. Cree la carpeta tickit en su depósito S3 y cargue los archivos allevents_pipe.txt y place_pipe.txt.

Configurar conexiones de Teradata

Para conectarse a Teradata desde AWS Glue, consulte Configurar la conexión Teradata.

Debe crear y almacenar sus credenciales de Teradata en un Director de secretos de AWS secreto y luego asociar ese secreto con una conexión Teradata AWS Glue. Analizaremos estos dos pasos con más detalle más adelante en esta publicación.

Cree un rol de IAM para el trabajo ETL de AWS Glue

Cuando crea el trabajo ETL de AWS Glue, especifica un Gestión de identidades y accesos de AWS (IAM) para que lo utilice el trabajo. El rol debe otorgar acceso a todos los recursos utilizados por el trabajo, incluido Amazon S3 (para cualquier fuente, destino, script, archivo de controlador y directorio temporal) y Secrets Manager. Para obtener instrucciones, consulte Configure un rol de IAM para su trabajo de ETL.

Crear tabla en Teradata

Con su herramienta de base de datos preferida, inicie sesión en Teradata. Ejecute el siguiente código para crear la tabla en Teradata donde cargará sus datos:

CREATE MULTISET TABLE test.tickit, FALLBACK
   (venueid varchar(25),
    venuename varchar(100),
    venuecity varchar(100),
    venuestate varchar(25),
    venueseats varchar(25),
    eventid varchar(25),
    catid varchar(25),
    dateid varchar(25),
    eventname varchar(100),
    starttime varchar(100))
    NO PRIMARY INDEX
;

Almacenar las credenciales de inicio de sesión de Teradata

An Conexión de pegamento AWS es un objeto del catálogo de datos que almacena credenciales de inicio de sesión, cadenas URI y más. El conector de Teradata requiere Secrets Manager para almacenar el nombre de usuario y la contraseña de Teradata que utiliza para conectarse a Teradata.

Para almacenar el nombre de usuario y la contraseña de Teradata en Secrets Manager, complete los siguientes pasos:

  1. En la consola de Secrets Manager, elija Misterios en el panel de navegación.
  2. Elige Almacenar un nuevo secreto.
  3. Seleccione Otro tipo de secreto.
  4. Introduzca la clave/valor USUARIO y teradata_user, A continuación, elija Agregar fila.
  5. Introduzca la clave/valor CONTRASEÑA y teradata_user_password, A continuación, elija Siguiente.

Configuración del Administrador de secretos de Teradata

  1. Nombre secreto, ingresa un nombre descriptivo y luego elige Siguiente.
  2. Elige Siguiente para pasar al paso de revisión, luego elija Tienda.

Cree la conexión Teradata en AWS Glue

Ahora está listo para crear una conexión de AWS Glue a Teradata. Complete los siguientes pasos:

  1. En la consola de AWS Glue, elija Conexiones bajo Catálogo de datos en el panel de navegación.
  2. Elige Crear conexión.
  3. Nombre, ingrese un nombre (por ejemplo, teradata_connection).
  4. Tipo de conexiónescoger Teradata.
  5. URL de Teradata, introduzca jdbc:teradata://url_of_teradata/database=name_of_your_database.
  6. Secreto de AWS, elija el secreto con sus credenciales de Teradata que creó anteriormente.

Acceso a la conexión Teradata

Cree un trabajo ETL visual de AWS Glue para transformar y cargar datos en Teradata

Complete los siguientes pasos para crear su trabajo ETL de AWS Glue:

  1. En la consola de AWS Glue, debajo de Empleos ETL en el panel de navegación, elija ETL visuales.
  2. Elige ETL visuales.
  3. Elija el ícono de lápiz para ingresar un nombre para su trabajo.

Añadimos venue_pipe.txt como nuestro primer conjunto de datos.

  1. Elige Agregar nodos y elige Amazon S3 en Fuentes .

Nodo fuente de Amazon S3

  1. Introduzca las siguientes propiedades de la fuente de datos:
    1. Nombre, ingrese Lugar.
    2. Tipo de fuente S3, seleccione Ubicación S3.
    3. URL de S3, ingrese la ruta S3 para venue_pipe.txt.
    4. Formato de datos, escoger CSV.
    5. Delimitador, escoger Tuberias.
    6. Deseleccionar La primera línea del archivo fuente contiene encabezados de columna..

Propiedades de la fuente de datos S3

Ahora agregamos allevents_pipe.txt como nuestro segundo conjunto de datos.

  1. Elige Agregar nodos y elige Amazon S3 en Fuentes .
  2. Introduzca las siguientes propiedades de la fuente de datos:
    1. Nombre, ingrese Evento.
    2. Tipo de fuente S3, seleccione Ubicación S3.
    3. URL de S3, ingrese la ruta S3 para allevents_pipe.txt.
    4. Formato de datos, escoger CSV.
    5. Delimitador, escoger Tuberias.
    6. Deseleccionar La primera línea del archivo fuente contiene encabezados de columna..

A continuación, cambiamos el nombre de las columnas del conjunto de datos Venue.

  1. Elige Agregar nodos y elige Cambiar esquema en Transforma .
  2. Introduzca las siguientes propiedades de transformación:
    1. Nombre, ingrese los datos de Cambiar nombre del lugar.
    2. Padres de nodo, elija Lugar.
    3. En Cambiar esquema sección, asigne las claves de origen a las claves de destino:
      1. col0: venueid
      2. col1: venuename
      3. col2: venuecity
      4. col3: venuestate
      5. col4: venueseats

Cambiar el nombre de la transformación ETL de los datos del lugar

Ahora filtramos el conjunto de datos de Venue a una región geográfica específica.

  1. Elige Agregar nodos y elige Filtrar en Transforma .
  2. Introduzca las siguientes propiedades de transformación:
    1. Nombre, ingrese Filtro de ubicación.
    2. Padres de nodo, elija Lugar.
    3. Condición del filtro, escoger venuestate para Clave, escoger cerillas para Operacióny escriba DC para Valor.

Configuración del filtro de ubicación

Ahora cambiamos el nombre de las columnas en el conjunto de datos del evento.

  1. Elige Agregar nodos y elige Cambiar esquema en Transforma .
  2. Introduzca las siguientes propiedades de transformación:
    1. Nombre, ingrese los datos de Renombrar evento.
    2. Padres de nodo, elija Evento.
    3. En Cambiar esquema sección, asigne las claves de origen a las claves de destino:
      1. col0: eventid
      2. col1: e_venueid
      3. col2: catid
      4. col3: dateid
      5. col4: eventname
      6. col5: starttime

A continuación, unimos los conjuntos de datos de Lugar y Evento.

  1. Elige Agregar nodos y elige Únete en Transforma .
  2. Introduzca las siguientes propiedades de transformación:
    1. Nombre, ingrese Unirse.
    2. Padres de nodo, elija Filtro de ubicación y Cambiar nombre de datos del evento.
    3. Tipo de uniónescoger Unir internamente.
    4. Condiciones de unión, escoger venueid para Filtro de ubicación y e_venueid para Cambiar el nombre de los datos del evento.

Unirse a propiedades

Ahora soltamos la columna duplicada.

  1. Elige Agregar nodos y elige Cambiar esquema en Transforma .
  2. Introduzca las siguientes propiedades de transformación:
    1. Nombre, ingrese la columna Descartar.
    2. Padres de nodo, elija Unirse.
    3. En Cambiar esquema sección, seleccionar Soltar para e_venueid .

Eliminar propiedades de columna

A continuación, cargamos los datos en la tabla de Teradata.

  1. Elige Agregar nodos y elige Teradata en Orden de Targets o Metas .
  2. Introduzca las siguientes propiedades del receptor de datos:
    1. Nombre, ingrese Teradata.
    2. Padres de nodo, elija Eliminar columna.
    3. Conexión Teradata, escoger teradata_connection.
    4. Nombre de la tabla, introduzca schema.tablename de la tabla que creó en Teradata.

Propiedades del receptor de datos Teradata

Por último, ejecutamos el trabajo y cargamos los datos en Teradata.

  1. Elige Guardar, A continuación, elija Ejecutar.

Un banner mostrará que el trabajo ha comenzado.

  1. Elige Ron, que muestra el estado del trabajo.

El estado de ejecución cambiará a logrado cuando el trabajo esté completo.

Estado de ejecución

  1. Conéctese a su Teradata y luego consulte la tabla en la que se cargaron los datos.

Los datos filtrados y unidos de los dos conjuntos de datos estarán en la tabla.

Resultado de datos filtrados y unidos

Limpiar

Para evitar incurrir en cargos adicionales causados ​​por los recursos creados como parte de esta publicación, asegúrese de eliminar los elementos que creó en la cuenta de AWS para esta publicación:

  • La clave de Secrets Manager creada para las credenciales de Teradata
  • El conector nativo de AWS Glue para Teradata Vantage
  • Los datos cargados en el depósito S3.
  • El trabajo ETL visual de AWS Glue

Conclusión

En esta publicación, creó una conexión a Teradata mediante AWS Glue y luego creó un trabajo de AWS Glue para transformar y cargar datos en Teradata. El conector nativo de AWS Glue para Teradata Vantage potencia su recorrido de análisis de datos al proporcionar una vía fluida y eficiente para integrar sus datos con Teradata. Esta nueva capacidad de AWS Glue no solo simplifica sus flujos de trabajo de integración de datos, sino que también abre nuevas vías para innovaciones en análisis avanzado, inteligencia empresarial y aprendizaje automático.

Con AWS Teradata Connector, tiene la mejor herramienta a su disposición para simplificar las tareas de integración de datos. Ya sea que esté buscando cargar datos de Amazon S3 en Teradata para análisis, informes o información empresarial, este nuevo conector agiliza el proceso, haciéndolo más accesible y rentable.

Para comenzar con AWS Glue, consulte Primeros pasos con AWS Glue.


Acerca de los autores

Kamen Sharlandjiev es un arquitecto senior de soluciones ETL y Big Data y experto en AWS Glue. Su misión es hacer la vida más fácil a los clientes que enfrentan desafíos complejos de integración de datos. ¿Su arma secreta? Servicios de AWS totalmente administrados y de bajo código que pueden realizar el trabajo con el mínimo esfuerzo y sin codificación. Siga a Kamen en LinkedIn para mantenerse actualizado con las últimas noticias de AWS Glue.

Sean Bjurstrom es gerente técnico de cuentas en cuentas ISV en Amazon Web Services, donde se especializa en tecnologías de análisis y aprovecha su experiencia en consultoría para ayudar a los clientes en sus viajes de análisis y nube. A Sean le apasiona ayudar a las empresas a aprovechar el poder de los datos para impulsar la innovación y el crecimiento. Fuera del trabajo, le gusta correr y ha participado en varios maratones.

Vinod Jayendra es líder de soporte empresarial en cuentas ISV en Amazon Web Services, donde ayuda a los clientes a resolver sus desafíos arquitectónicos, operativos y de optimización de costos. Con un enfoque particular en tecnologías sin servidor, aprovecha su amplia experiencia en desarrollo de aplicaciones para ayudar a los clientes a crear soluciones de primer nivel. Más allá del trabajo, disfruta del tiempo de calidad en familia, de embarcarse en aventuras en bicicleta y de entrenar equipos deportivos juveniles.

doug mbaya es un arquitecto de soluciones de socio senior con enfoque en análisis y aprendizaje automático. Doug trabaja en estrecha colaboración con los socios de AWS y les ayuda a integrar sus soluciones con soluciones de aprendizaje automático y análisis de AWS en la nube.

punto_img

Información más reciente

punto_img