Logotipo de Zephyrnet

Utilice Amazon DocumentDB para crear soluciones de aprendizaje automático sin código en Amazon SageMaker Canvas | Servicios web de Amazon

Fecha:

Nos complace anunciar el lanzamiento de Amazon DocumentDB (con compatibilidad con MongoDB) integración con Lienzo de Amazon SageMaker, lo que permite a los clientes de Amazon DocumentDB crear y utilizar soluciones de inteligencia artificial generativa y aprendizaje automático (ML) sin escribir código. Amazon DocumentDB es una base de datos de documentos JSON nativa totalmente administrada que hace que sea sencillo y rentable operar cargas de trabajo de documentos críticos prácticamente a cualquier escala sin administrar la infraestructura. Amazon SageMaker Canvas es un espacio de trabajo de aprendizaje automático sin código que ofrece modelos listos para usar, incluidos modelos básicos, y la capacidad de preparar datos y crear e implementar modelos personalizados.

En esta publicación, analizamos cómo incorporar los datos almacenados en Amazon DocumentDB a SageMaker Canvas y utilizar esos datos para crear modelos de aprendizaje automático para análisis predictivos. Sin crear ni mantener canalizaciones de datos, podrá potenciar los modelos de aprendizaje automático con sus datos no estructurados almacenados en Amazon DocumentDB.

Resumen de la solución

Asumamos el papel de analista de negocios para una empresa de entrega de alimentos. Su aplicación móvil almacena información sobre restaurantes en Amazon DocumentDB debido a su escalabilidad y capacidades de esquema flexible. Quiere recopilar información sobre estos datos y crear un modelo de aprendizaje automático para predecir cómo se calificarán los nuevos restaurantes, pero le resulta difícil realizar análisis de datos no estructurados. Se encuentra con obstáculos porque necesita confiar en los equipos de ingeniería y ciencia de datos para lograr estos objetivos.

Esta nueva integración resuelve estos problemas al simplificar la incorporación de datos de Amazon DocumentDB a SageMaker Canvas y comenzar inmediatamente a preparar y analizar datos para ML. Además, SageMaker Canvas elimina la dependencia de la experiencia en aprendizaje automático para crear modelos de alta calidad y generar predicciones.

Demostramos cómo utilizar datos de Amazon DocumentDB para crear modelos de aprendizaje automático en SageMaker Canvas en los siguientes pasos:

  1. Cree un conector de Amazon DocumentDB en SageMaker Canvas.
  2. Analice datos utilizando IA generativa.
  3. Prepare datos para el aprendizaje automático.
  4. Construya un modelo y genere predicciones.

Requisitos previos

Para implementar esta solución, complete los siguientes requisitos previos:

  1. Tener acceso de administrador de la nube de AWS con un Gestión de identidades y accesos de AWS (YO SOY) usuario con los permisos necesarios para completar la integración.
  2. Complete la configuración del entorno utilizando Formación en la nube de AWS a través de cualquiera de las siguientes opciones:
    1. Implementar una plantilla de CloudFormation en una nueva VPC – Esta opción crea un nuevo entorno de AWS que consta de VPC, subredes privadas, grupos de seguridad, roles de ejecución de IAM, Nube de Amazon9, puntos de enlace de la VPC necesariosy Dominio de SageMaker. Luego implementa Amazon DocumentDB en esta nueva VPC. Descargar el plantilla o inicie rápidamente la pila de CloudFormation eligiendo Pila de lanzamiento:
      Lanzar la pila de CloudFormation
    2. Implementar una plantilla de CloudFormation en una VPC existente – Esta opción crea los puntos finales de VPC, las funciones de ejecución de IAM y el dominio de SageMaker necesarios en una VPC existente con subredes privadas. Descargar el plantilla o inicie rápidamente la pila de CloudFormation eligiendo Pila de lanzamiento:
      Lanzar la pila de CloudFormation

Tenga en cuenta que si está creando un nuevo dominio de SageMaker, debe configurar el dominio para que esté en una VPC privada sin acceso a Internet para poder agregar el conector a Amazon DocumentDB. Para obtener más información, consulte Configure Amazon SageMaker Canvas en una VPC sin acceso a Internet.

  1. Siga las tutoriales para cargar datos de restaurantes de muestra en Amazon DocumentDB.
  2. Agregue acceso a Amazon Bedrock y al modelo Anthropic Claude dentro de él. Para más información, ver Agregar acceso al modelo.

Cree un conector de Amazon DocumentDB en SageMaker Canvas

Después de crear su dominio de SageMaker, complete los siguientes pasos:

  1. En la consola de Amazon DocumentDB, elija Aprendizaje automático sin código en el panel de navegación.
  2. under Elige un dominio y perfil¸ elija su dominio de SageMaker y perfil de usuario.
  3. Elige Lienzo de lanzamiento para iniciar SageMaker Canvas en una nueva pestaña.

Cuando SageMaker Canvas termine de cargarse, aterrizará en el Los flujos de datos .

  1. Elige Crear para crear un nuevo flujo de datos.
  2. Ingrese un nombre para su flujo de datos y elija Crear.
  3. Agregue una nueva conexión de Amazon DocumentDB eligiendo Importar fechas, A continuación, elija Tabular para Tipo de conjunto de datos.
  4. En Importar fechas página, para Fuente de datos, escoger DocumentoDB y Agregar conexión.
  5. Ingrese un nombre de conexión, como demostración, y elija el clúster de Amazon DocumentDB que desee.

Tenga en cuenta que SageMaker Canvas completará previamente el menú desplegable con clústeres en la misma VPC que su dominio de SageMaker.

  1. Introduzca un nombre de usuario, contraseña y nombre de la base de datos.
  2. Finalmente, seleccione su preferencia de lectura.

Para proteger el rendimiento de las instancias principales, SageMaker Canvas utiliza de forma predeterminada Secundaria, lo que significa que solo leerá desde instancias secundarias. Cuando la preferencia de lectura es Secundaria preferida, SageMaker Canvas lee desde instancias secundarias disponibles, pero leerá desde la instancia principal si no hay una instancia secundaria disponible. Para obtener más información sobre cómo configurar una conexión de Amazon DocumentDB, consulte la Conéctese a una base de datos almacenada en AWS.

  1. Elige Añadir conexión.

Si la conexión es exitosa, verá las colecciones en su base de datos de Amazon DocumentDB mostradas como tablas.

  1. Arrastre la tabla de su elección al lienzo en blanco. Para esta publicación, agregamos los datos de nuestro restaurante.

Las primeras 100 filas se muestran como vista previa.

  1. Para comenzar a analizar y preparar sus datos, elija Importar fechas.
  2. Introduzca un nombre de conjunto de datos y elija Importar fechas.

Analizar datos utilizando IA generativa

A continuación, queremos obtener algunos conocimientos sobre nuestros datos y buscar patrones. SageMaker Canvas proporciona una interfaz de lenguaje natural para analizar y preparar datos. Cuando el Datos Se carga la pestaña, puedes comenzar a chatear con tus datos con los siguientes pasos:

  1. Elige Chat para preparación de datos.
  2. Recopile información sobre sus datos haciendo preguntas como las que se muestran en las siguientes capturas de pantalla.

Para obtener más información sobre cómo utilizar el lenguaje natural para explorar y preparar datos, consulte Utilice lenguaje natural para explorar y preparar datos con una nueva capacidad de Amazon SageMaker Canvas.

Obtengamos una idea más profunda de la calidad de nuestros datos utilizando el Informe de conocimientos y calidad de datos de SageMaker Canvas, que evalúa automáticamente la calidad de los datos y detecta anomalías.

  1. En Analiza pestaña, elegir Informe de información y calidad de datos.
  2. Elige rating como columna de destino y Regresión como tipo de problema, luego elija Crear.

Esto simulará el entrenamiento de modelos y proporcionará información sobre cómo podemos mejorar nuestros datos para el aprendizaje automático. El informe completo se genera en unos minutos.

Nuestro informe muestra que al 2.47 % de las filas de nuestro objetivo les faltan valores; abordaremos eso en el siguiente paso. Además, el análisis muestra que la address line 2, namey type_of_food Las características tienen el mayor poder de predicción en nuestros datos. Esto indica que la información básica del restaurante, como la ubicación y la cocina, puede tener un impacto enorme en las calificaciones.

Prepare datos para el aprendizaje automático

SageMaker Canvas ofrece más de 300 transformaciones integradas para preparar sus datos importados. Para obtener más información sobre las funciones de transformación de SageMaker Canvas, consulte Prepare datos con transformaciones avanzadas. Agreguemos algunas transformaciones para preparar nuestros datos para entrenar un modelo de ML.

  1. Vuelve a la Flujo de datos página eligiendo el nombre de su flujo de datos en la parte superior de la página.
  2. Elija el signo más junto a Tipos de datos y elige Agregar transformación.
  3. Elige Agregar paso.
  4. Cambiemos el nombre de address line 2 columna a cities.
    1. Elige Administrar columnas.
    2. Elige Cambiar el nombre de la columna para Transformar.
    3. Elige address line 2 para Columna de entrada, introduzca cities para Nuevo nombre, y elige Añada.
  5. Además, eliminemos algunas columnas innecesarias.
    1. Agrega una nueva transformación.
    2. Transformar, escoger Columna de caída.
    3. Columnas para soltar, escoger URL y restaurant_id.
    4. Elige Añada.
      [
  6. Nuestro rating A la columna de características le faltan algunos valores, así que completemos esas filas con el valor promedio de esta columna.
    1. Agrega una nueva transformación.
    2. Transformar, escoger Imputar.
    3. Tipo de columna, escoger Numérico.
    4. Columnas de entrada, elegir la rating columna.
    5. estrategia de imputación, escoger Media.
    6. Columna de salida, introduzca rating_avg_filled.
    7. Elige Añada.
  7. Podemos soltar el rating columna porque tenemos una nueva columna con valores completos.
  8. Gracias type_of_food es de naturaleza categórica, querremos codificarlo numéricamente. Codifiquemos esta función utilizando la técnica de codificación one-hot.
    1. Agrega una nueva transformación.
    2. Transformar, escoger Codificación one-hot.
    3. Para columnas de entrada, elija type_of_food.
    4. Estrategia de manejo no válidaescoger Guardar.
    5. Estilo de salidaescoger Columnas.
    6. Columna de salida, introduzca encoded.
    7. Elige Añada.

Construir un modelo y generar predicciones.

Ahora que hemos transformado nuestros datos, entrenemos un modelo de ML numérico para predecir las calificaciones de los restaurantes.

  1. Elige Crear modelo.
  2. Nombre del conjunto de datos, ingrese un nombre para la exportación del conjunto de datos.
  3. Elige Exportar y espere a que se exporten los datos transformados.
  4. Elija el Crear modelo enlace en la esquina inferior izquierda de la página.

También puede seleccionar el conjunto de datos desde la función Data Wrangler a la izquierda de la página.

  1. Introduzca un nombre de modelo.
  2. Elige Análisis predictivo, A continuación, elija Crear.
  3. Elige rating_avg_filled como la columna de destino.

SageMaker Canvas selecciona automáticamente un tipo de modelo adecuado.

  1. Elige Modelo de vista previa para garantizar que no haya problemas de calidad de los datos.
  2. Elige Construcción rápida para construir el modelo.

La creación del modelo tardará aproximadamente entre 2 y 15 minutos en completarse.

Puede ver el estado del modelo una vez que el modelo termine de entrenarse. Nuestro modelo tiene un RSME de 0.422, lo que significa que el modelo a menudo predice la calificación de un restaurante dentro de +/- 0.422 del valor real, una aproximación sólida para la escala de calificación de 1 a 6.

  1. Finalmente, puede generar predicciones de muestra navegando a la Predicción .

Limpiar

Para evitar incurrir en cargos futuros, elimine los recursos que creó mientras seguía esta publicación. SageMaker Canvas le factura por la duración de la sesión y le recomendamos cerrar sesión en SageMaker Canvas cuando no lo esté utilizando. Referirse a Cerrar sesión en Amazon SageMaker Canvas para más información.

Conclusión

En esta publicación, analizamos cómo puede utilizar SageMaker Canvas para IA y ML generativos con datos almacenados en Amazon DocumentDB. En nuestro ejemplo, mostramos cómo un analista puede crear rápidamente un modelo de aprendizaje automático de alta calidad utilizando un conjunto de datos de restaurante de muestra.

Mostramos los pasos para implementar la solución, desde importar datos de Amazon DocumentDB hasta crear un modelo de ML en SageMaker Canvas. Todo el proceso se completó a través de una interfaz visual sin escribir una sola línea de código.

Para comenzar su viaje de ML de código bajo/sin código, consulte Lienzo de Amazon SageMaker.


Sobre los autores

Adeleke Coker es arquitecto de soluciones globales con AWS. Trabaja con clientes en todo el mundo para brindar orientación y asistencia técnica en la implementación de cargas de trabajo de producción a escala en AWS. En su tiempo libre, le gusta aprender, leer, jugar y ver eventos deportivos.

Gururaj S Bayari es arquitecto senior de soluciones especializado en DocumentDB en AWS. Le gusta ayudar a los clientes a adoptar las bases de datos especialmente diseñadas por Amazon. Ayuda a los clientes a diseñar, evaluar y optimizar su escala de Internet y cargas de trabajo de alto rendimiento impulsadas por NoSQL y/o bases de datos relacionales.

Tim Pusateri es gerente senior de productos en AWS, donde trabaja en Amazon SageMaker Canvas. Su objetivo es ayudar a los clientes a obtener rápidamente valor de AI/ML. Fuera del trabajo, le encanta estar al aire libre, tocar la guitarra, ver música en vivo y pasar tiempo con familiares y amigos.

Pratik Das es gerente de producto en AWS. Le gusta trabajar con clientes que buscan crear cargas de trabajo resilientes y bases de datos sólidas en la nube. Aporta experiencia trabajando con empresas en iniciativas de modernización, análisis y transformación de datos.

Varma Gottumukkala es un arquitecto senior de soluciones especializado en bases de datos en AWS con sede en Dallas Fort Worth. Varma trabaja con los clientes en su estrategia de base de datos y diseña sus cargas de trabajo utilizando bases de datos especialmente diseñadas por AWS. Antes de unirse a AWS, trabajó extensamente con bases de datos relacionales, bases de datos NOSQL y múltiples lenguajes de programación durante los últimos 22 años.

punto_img

Información más reciente

punto_img