Una experiencia integrada para todos sus datos e IA con Amazon SageMaker Unified Studio (versión preliminar)

Como
Gustó

Fecha:

Las organizaciones están creando aplicaciones basadas en datos para orientar las decisiones empresariales, mejorar la agilidad e impulsar la innovación. Muchas de estas aplicaciones son complejas de crear porque requieren la colaboración entre equipos y la integración de datos, herramientas y servicios. Los ingenieros de datos utilizan almacenes de datos, lagos de datos y herramientas de análisis para cargar, transformar, limpiar y agregar datos. Los científicos de datos utilizan entornos de notebook (como JupyterLab) para crear modelos predictivos para diferentes segmentos objetivo.

Sin embargo, la creación de aplicaciones avanzadas basadas en datos plantea varios desafíos. En primer lugar, puede llevar mucho tiempo que los usuarios aprendan las experiencias de desarrollo de varios servicios. En segundo lugar, debido a que los datos, el código y otros artefactos de desarrollo, como los modelos de aprendizaje automático (ML), se almacenan en diferentes servicios, puede resultar complicado para los usuarios comprender cómo interactúan entre sí y cómo realizan cambios. En tercer lugar, configurar y controlar el acceso de los usuarios adecuados a los datos, el código, los artefactos de desarrollo y los recursos informáticos en todos los servicios es un proceso manual.

Para abordar estos desafíos, las organizaciones suelen crear integraciones a medida entre servicios, herramientas y sus propios sistemas de gestión de acceso. Las organizaciones quieren la flexibilidad de adoptar los mejores servicios para sus casos de uso y, al mismo tiempo, brindar a sus profesionales de datos una experiencia de desarrollo unificada.

Lanzamos Estudio unificado de Amazon SageMaker En vista previa para abordar estos desafíos. SageMaker Unified Studio es un entorno de desarrollo integrado (IDE) para datos, análisis e IA. Descubra sus datos y póngalos a trabajar utilizando herramientas familiares de AWS para completar flujos de trabajo de desarrollo de extremo a extremo, incluidos análisis de datos, procesamiento de datos, entrenamiento de modelos, creación de aplicaciones de IA generativa y más, en un único entorno gobernado. Cree o únase a proyectos para colaborar con sus equipos, compartir artefactos de IA y análisis de forma segura, y descubra y use sus datos almacenados en Amazon S3, Amazon Redshift y más fuentes de datos a través de Amazon SageMaker Lakehouse. A medida que los casos de uso de IA y análisis convergen, transforme la forma en que los equipos de datos trabajan juntos con SageMaker Unified Studio.

Esta publicación demuestra cómo SageMaker Unified Studio unifica sus cargas de trabajo analíticas.

La siguiente captura de pantalla ilustra SageMaker Unified Studio.

SageMaker Unified Studio ofrece las siguientes opciones de menú de acceso rápido desde Inicio:

  • Descubre:
    • Catálogo de datos – Busque y consulte activos de datos y explore modelos de ML
    • Patio de juegos de IA generativa – Experimente con el chat o el patio de juegos de imágenes
    • Activos de IA generativos compartidos – Explore las aplicaciones de IA generativa y las indicaciones que compartimos con usted.
  • Construir con proyectos:
    • Modelo de ML e IA generativa – Cree, entrene e implemente modelos de ML y de base con infraestructura, herramientas y flujos de trabajo totalmente administrados.
    • Desarrollo de aplicaciones de IA generativa – Cree aplicaciones de IA generativas y experimente con modelos básicos, indicaciones, agentes, funciones y barandillas en Amazon Bedrock IDE.
    • Procesamiento de datos y análisis SQL – Analice, prepare e integre datos para análisis e IA utilizando Amazon Athena, Amazon EMR, AWS Glue y Amazon Redshift.
    • Gobernanza de datos e inteligencia artificial – Publique sus productos de datos en el catálogo con glosarios y formularios de metadatos. Controle el acceso de forma segura en el catálogo de Amazon SageMaker creado en Amazon DataZone.

Con SageMaker Unified Studio, ahora tiene una experiencia de desarrollo unificada en todos estos servicios. Solo necesita aprender a usar estas herramientas una vez y luego podrá usarlas en todos los servicios.

Con los cuadernos de SageMaker Unified Studio, puede usar Python o Spark para explorar y visualizar datos de forma interactiva, preparar datos para análisis y aprendizaje automático, y entrenar modelos de aprendizaje automático. Con el editor SQL, puede consultar lagos de datos, bases de datos, almacenes de datos y fuentes de datos federadas. Las herramientas de SageMaker Unified Studio están integradas con Amazonas Q, puede crear, refinar y mantener rápidamente aplicaciones con capacidades de texto a código.

Además, SageMaker Unified Studio proporciona una vista unificada de los componentes básicos de una aplicación, como datos, código, artefactos de desarrollo y recursos informáticos en todos los servicios para los usuarios aprobados. Esto permite que los ingenieros de datos, los científicos de datos, los analistas de negocios y otros profesionales de datos que trabajan con la misma herramienta comprendan rápidamente cómo funciona una aplicación, revisen sin problemas el trabajo de los demás y realicen los cambios necesarios.

Además, SageMaker Unified Studio automatiza y simplifica la gestión de acceso a los componentes básicos de una aplicación. Una vez que estos componentes básicos se agregan a un proyecto, los usuarios aprobados pueden acceder a ellos automáticamente desde todas las herramientas; SageMaker Unified Studio configura los permisos específicos del servicio necesarios. Con SageMaker Unified Studio, los profesionales de datos pueden acceder a todas las capacidades de los servicios de análisis, IA/ML e IA generativa diseñados específicamente para AWS desde una única experiencia de desarrollo unificada.

En las siguientes secciones, explicamos cómo comenzar a utilizar SageMaker Unified Studio y algunos casos de uso de ejemplo.

Crear un dominio de SageMaker Unified Studio

Complete los siguientes pasos para crear un nuevo dominio de SageMaker Unified Studio:

  1. En la consola de la plataforma SageMaker, seleccione dominios en el panel de navegación.
  2. Elegir Crear dominio.
  3. Para ¿Cómo quieres configurar tu dominio?, seleccione Configuración rápida (recomendada para exploración).

Inicialmente, no se ha configurado ninguna nube privada virtual (VPC) específicamente para su uso con SageMaker Unified Studio, por lo que verá un cuadro de diálogo que le solicitará que cree una VPC.

  1. Elegir Crear VPC.

Eres redirigido a Formación en la nube de AWS consola para implementar una pila para configurar recursos de VPC.

  1. Elegir Crear pilay esperar a que la pila se complete.
  2. Regrese a la consola de SageMaker Unified Studio y, dentro del cuadro de diálogo, elija el ícono de actualización.
  3. bajo Configuración de configuración rápida, Para Nombre, ingrese un nombre (por ejemplo, demo).
  4. Para Función de ejecución del dominio, Rol de servicio de dominio, Rol de aprovisionamientoy Administrar rol de acceso, déjelo como predeterminado.
  5. Para Nube privada virtual (VPC), verifique que la nueva VPC que creó en la pila CloudFormation esté configurada.
  6. Para Subredes, verifique que las nuevas subredes privadas que creó en la pila CloudFormation estén configuradas.
  7. Elegir Continúar.
  8. Para Crear un usuario del Centro de identidad de IAM, busque su usuario SSO a través de su dirección de correo electrónico.

Si no tiene una instancia de IAM Identity Center, se le solicitará que ingrese su nombre después de su dirección de correo electrónico. Esto creará una nueva instancia de IAM Identity Center local.

  1. Elegir Crear dominio.

Inicie sesión en SageMaker Unified Studio

Ahora que ha creado su nuevo dominio de SageMaker Unified Studio, complete los siguientes pasos para visitar SageMaker Unified Studio:

  1. En la consola de la plataforma SageMaker, abra la página de detalles de su dominio.
  2. Elija el enlace para URL de Amazon SageMaker Unified Studio.
  3. Inicie sesión con sus credenciales de SSO.

Ahora ha iniciado sesión en SageMaker Unified Studio.

Crear un proyecto

El siguiente paso es crear un proyecto. Siga estos pasos:

  1. En SageMaker Unified Studio, seleccione Seleccione un proyecto en el menú superior y seleccione Crear proyecto.
  2. Para Nombre del proyecto, ingrese un nombre (por ejemplo, demo).
  3. Para Perfil del proyecto, escoger Análisis de datos y desarrollo de modelos AI-ML.
  4. Elegir Continúar.
  5. Revise la entrada y elija Crear proyecto.

Debe esperar a que se cree el proyecto. La creación del proyecto puede tardar unos 5 minutos. Luego, la consola de SageMaker Unified Studio lo llevará a la página de inicio del proyecto.

Ahora puede utilizar una variedad de herramientas para su carga de trabajo de análisis, aprendizaje automático e inteligencia artificial. En las siguientes secciones, proporcionamos algunos ejemplos de casos de uso.

Procesa tus datos a través de un notebook con múltiples cómputos

SageMaker Unified Studio ofrece una experiencia unificada de JupyterLab en diferentes lenguajes, incluidos SQL, PySpark y Scala Spark. También admite el acceso unificado en diferentes entornos de ejecución de cómputo, como Desplazamiento al rojo de Amazon y Atenea amazónica Para SQL, Amazon EMR sin servidor, Amazon EMR en EC2 y Pegamento AWS para Spark.

Complete los siguientes pasos para comenzar a disfrutar de la experiencia unificada de JupyterLab:

  1. Abra la página de su proyecto de SageMaker Unified Studio.
  2. En el menú superior, seleccione CONSTRUIR, Y debajo IDE Y APLICACIONES, escoger JupyterLab.
  3. Espere a que el espacio esté listo.
  4. Seleccione el signo más y para Notebook, escoger 3 Python.

La siguiente captura de pantalla muestra un ejemplo de la página del cuaderno unificada.

Hay dos menús desplegables en la parte superior izquierda de cada celda. Tipo de conexión El menú corresponde a tipos de conexión como Python local, PySpark, SQL, etc.

La Calcular El menú corresponde a opciones de cálculo como Athena, AWS Glue, Amazon EMR, etc.

  1. Para la primera celda, elija PySpark, chispa, que tiene como valor predeterminado AWS Glue para Spark, e ingrese el siguiente código para inicializar SparkSession y crear un DataFrame a partir de un Servicio de almacenamiento simple de Amazon (Ruta de Amazon S3), luego ejecute la celda:
    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.getOrCreate()
    
    df1 = spark.read.format("csv") 
        .option("multiLine", "true") 
        .option("header", "false") 
        .option("sep", ",") 
        .load("s3://aws-blogs-artifacts-public/artifacts/BDB-4798/data/venue.csv")
    
    df1.show()

  2. Para la siguiente celda, ingrese el siguiente código para cambiar el nombre de las columnas y filtrar los registros, y ejecute la celda:
    df1_renamed = df1.withColumnsRenamed(
        {
            "_c0" : "venueid", 
            "_c1" : "venuename", 
            "_c2" : "venuecity", 
            "_c3" : "venuestate", 
            "_c4" : "venueseats"
        }
    )
    
    df1_filtered = df1_renamed.filter("`venuestate` == 'DC'")
    
    df1_filtered.show()

  3. Para la siguiente celda, ingrese el siguiente código para crear otro DataFrame desde otra ruta S3 y ejecute la celda:
    df2 = spark.read.format("csv") 
        .option("multiLine", "true") 
        .option("header", "false") 
        .option("sep", ",") 
        .load("s3://aws-blogs-artifacts-public/artifacts/BDB-4798/data/events.csv")
    df2_renamed = df2.withColumnsRenamed(
        {
            "_c0" : "eventid", 
            "_c1" : "e_venueid", 
            "_c2" : "catid", 
            "_c3" : "dateid", 
            "_c4" : "eventname", 
            "_c5" : "starttime"
        }
    )
    
    df2_renamed.show()

  4. Para la siguiente celda, ingrese el siguiente código para unir los marcos y aplicar SQL personalizado, y ejecutar la celda:
    df_joined = df2_renamed.join(df1_filtered, (df2_renamed['e_venueid'] == df1_filtered['venueid']), "inner")
    
    df_sql = spark.sql("""
        select 
            venuename, 
            count(distinct eventid) as eventid_count
        from {myDataSource}
        group by venuename
    """, myDataSource = df_joined)
    
    df_sql.show()

  5. Para la siguiente celda, ingrese el siguiente código para escribir en una tabla y ejecute la celda (reemplace el nombre de la base de datos de AWS Glue con el nombre de la base de datos de su proyecto y la ruta S3 con la ruta S3 de su proyecto):
    df_sql.write.format("parquet") 
        .option("path", "s3://amazon-sagemaker-123456789012-us-east-2-xxxxxxxxxxxxx/dzd_1234567890123/xxxxxxxxxxxxx/dev/venue_event_agg/") 
        .option("header", False) 
        .option("compression", "snappy") 
        .mode("overwrite") 
        .saveAsTable("`glue_db_abcdefgh`.`venue_event_agg`")

Ahora ha ingerido datos con éxito en Amazon S3 y ha creado una nueva tabla denominada venue_event_agg.

  1. En la siguiente celda, cambie el tipo de conexión de PySpark a SQL.
  2. Ejecute el siguiente SQL en la tabla (reemplace el nombre de la base de datos de AWS Glue con el nombre de la base de datos de su proyecto):
    SELECT * FROM glue_db_abcdefgh.venue_event_agg

La siguiente captura de pantalla muestra un ejemplo de los resultados.

El SQL se ejecutó en AWS Glue para Spark. Opcionalmente, puedes cambiar a otros motores de análisis como Athena cambiando el cómputo.

Explora tus datos a través de un editor de consultas SQL

En la sección anterior, aprendió cómo funciona el cuaderno unificado con distintos tipos de conexión y distintos motores de cómputo. A continuación, usemos el explorador de datos para explorar la tabla que creó con un cuaderno. Complete los siguientes pasos:

  1. En la página del proyecto, seleccione Data.
  2. bajo Casa del Lago, expandir AwsDataCatalog.
  3. Amplíe su base de datos a partir de glue_db_.
  4. Elegir venue_event_agg, escoger Consulta con Athena.
  5. Elegir Ejecutar todo.

La siguiente captura de pantalla muestra un ejemplo del resultado de la consulta.

A medida que ingresa texto en el editor de consultas, notará que ofrece sugerencias de declaraciones. El editor de consultas SQL ofrece sugerencias de autocompletado en tiempo real a medida que escribe declaraciones SQL, que abarcan declaraciones DML/DDL, cláusulas, funciones y esquemas de sus catálogos, como bases de datos, tablas y columnas. Esto permite crear consultas de forma más rápida y sin errores.

Puede completar la edición de la consulta y ejecutarla.

También puede abrir un asistente SQL generativo impulsado por Amazon Q para mejorar su experiencia de creación de consultas.

Por ejemplo, puedes preguntar “Calcula la suma de eventid_count en todos los lugares” en el asistente y la consulta se sugiere automáticamente. Puede elegir Añadir a la consultalibro para copiar la consulta sugerida se copia al querybook y se ejecuta.

A continuación, volvamos a la consulta original, intentemos una visualización rápida para analizar la distribución de datos.

  1. Seleccione el icono de vista de gráfico.
  2. bajo Estructura , escoger Las huellas.
  3. Para Type, escoger Tarta.
  4. Para Valores, escoger eventid_count.
  5. Para Etiquetas, escoger venuename.

El resultado de la consulta se mostrará como un gráfico circular como el siguiente ejemplo. Puede personalizar el título del gráfico, el título del eje, los estilos de subgráficos y más en la interfaz de usuario. Las imágenes generadas también se pueden descargar como archivos PNG o JPEG.

En las instrucciones anteriores, aprendió cómo funciona el explorador de datos con diferentes visualizaciones.

Limpiar

Para limpiar sus recursos, complete los siguientes pasos:

  1. Eliminar la tabla de AWS Glue venue_event_agg y objetos S3 bajo la ruta de la tabla S3.
  2. Elimina el proyecto que has creado.
  3. Elimina el dominio que has creado.
  4. Eliminar la VPC denominada SageMakerUnifiedStudioVPC.

Conclusión

En esta publicación, demostramos cómo SageMaker Unified Studio (versión preliminar) unifica su carga de trabajo de análisis. También explicamos la experiencia de usuario de extremo a extremo de SageMaker Unified Studio para dos casos de uso diferentes de notebook y consulta. Descubra sus datos y póngalos a trabajar utilizando herramientas de AWS conocidas para completar flujos de trabajo de desarrollo de extremo a extremo, incluidos análisis de datos, procesamiento de datos, entrenamiento de modelos, creación de aplicaciones de IA generativa y más, en un único entorno gobernado. Cree o únase a proyectos para colaborar con sus equipos, compartir artefactos de IA y análisis de forma segura, y descubra y use sus datos almacenados en Amazon S3, Amazon Redshift y más fuentes de datos a través de Amazon SageMaker Lakehouse. A medida que los casos de uso de IA y análisis convergen, transforme la forma en que los equipos de datos trabajan juntos con SageMaker Unified Studio.

Para obtener más información, visite Amazon SageMaker Unified Studio (versión preliminar).


Acerca de los autores

Noritaka Sekiyama es Arquitecto Principal de Big Data en el equipo de AWS Glue. Trabaja en Tokio, Japón. Es responsable de crear artefactos de software para ayudar a los clientes. En su tiempo libre, disfruta andar en bicicleta con su bicicleta de carretera.

Chiho Sugimoto es ingeniero de soporte en la nube en el equipo de soporte de Big Data de AWS. Le apasiona ayudar a los clientes a crear lagos de datos mediante cargas de trabajo de ETL. Le encanta la ciencia planetaria y disfruta estudiar el asteroide Ryugu los fines de semana.

zach mitchell es Arquitecto Sr. de Big Data. Trabaja dentro del equipo de productos para mejorar la comprensión entre los ingenieros de productos y sus clientes mientras guía a los clientes a través de su viaje para desarrollar lagos de datos y otras soluciones de datos en los servicios de análisis de AWS.

Chanu Damarla es gerente principal de productos del equipo de Amazon SageMaker Unified Studio. Trabaja con clientes de todo el mundo para traducir los requisitos comerciales y técnicos en productos que deleiten a los clientes y les permitan ser más productivos con sus datos, análisis e inteligencia artificial.

Artículos relacionados

punto_img

Artículos Recientes

punto_img