Logotipo de Zephyrnet

Acelere la preparación de datos para ML en Amazon SageMaker Canvas | Servicios web de Amazon

Fecha:

La preparación de datos es un paso crucial en cualquier flujo de trabajo de aprendizaje automático (ML), pero a menudo implica tareas tediosas y que requieren mucho tiempo. Lienzo de Amazon SageMaker ahora admite capacidades integrales de preparación de datos impulsadas por Wrangler de datos de Amazon SageMaker. Con esta integración, SageMaker Canvas ofrece a los clientes un espacio de trabajo sin código de extremo a extremo para preparar datos, crear y utilizar ML y modelos básicos para acelerar el tiempo desde los datos hasta la información empresarial. Ahora puede descubrir y agregar fácilmente datos de más de 50 fuentes de datos, y explorar y preparar datos utilizando más de 300 análisis y transformaciones integrados en la interfaz visual de SageMaker Canvas. También verá un rendimiento más rápido para transformaciones y análisis, y una interfaz de lenguaje natural para explorar y transformar datos para ML.

En esta publicación, lo guiaremos a través del proceso de preparación de datos para la creación de modelos de un extremo a otro en SageMaker Canvas.

Resumen de la solución

Para nuestro caso de uso, asumimos el rol de un profesional de datos en una empresa de servicios financieros. Utilizamos dos conjuntos de datos de muestra para construir un modelo de ML que predice si el prestatario reembolsará completamente un préstamo, lo cual es crucial para gestionar el riesgo crediticio. El entorno sin código de SageMaker Canvas nos permite preparar rápidamente los datos, diseñar funciones, entrenar un modelo de ML e implementar el modelo en un flujo de trabajo de un extremo a otro, sin necesidad de codificación.

Requisitos previos

Para seguir este tutorial, asegúrese de haber implementado los requisitos previos como se detalla en

  1. Inicie el lienzo de Amazon SageMaker. Si ya es usuario de SageMaker Canvas, asegúrese de finalizar la sesión y vuelva a iniciar sesión para poder utilizar esta nueva función.
  2. Para importar datos de Snowflake, siga los pasos de Configurar OAuth para Snowflake.

Preparar datos interactivos

Una vez completada la configuración, ahora podemos crear un flujo de datos para permitir la preparación interactiva de datos. El flujo de datos proporciona transformaciones integradas y visualizaciones en tiempo real para analizar los datos. Complete los siguientes pasos:

  1. Cree un nuevo flujo de datos utilizando uno de los siguientes métodos:
    1. Elige Wrangler de datos, Los flujos de datos, A continuación, elija Crear.
    2. Seleccione el conjunto de datos de SageMaker Canvas y elija Crea un flujo de datos.
  2. Elige Importar fechas y seleccionar Tabular de la lista desplegable.
  3. Puede importar datos directamente a través de más de 50 conectores de datos, como Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazon, Copo de nieve y Salesforce. En este tutorial, cubriremos la importación de sus datos directamente desde Snowflake.

Alternativamente, puede cargar el mismo conjunto de datos desde su máquina local. Puedes descargar el conjunto de datos. prestamos-parte-1.csv y prestamos-parte-2.csv.

  1. En la página Importar datos, seleccione Snowflake de la lista y elija Añadir conexión.

  2. Ingrese un nombre para la conexión, elija OAuth opción de la lista desplegable del método de autenticación. Ingrese su identificación de cuenta de Okta y elija Agregar conexión.
  3. Serás redirigido a la pantalla de inicio de sesión de Okta para ingresar las credenciales de Okta para autenticarte. Tras una autenticación exitosa, será redirigido a la página de flujo de datos.
  4. Navegue para localizar el conjunto de datos de préstamos en la base de datos de Snowflake

Seleccione los dos conjuntos de datos de préstamos arrastrándolos y soltándolos desde el lado izquierdo de la pantalla hacia la derecha. Los dos conjuntos de datos se conectarán y aparecerá un símbolo de unión con un signo de exclamación rojo. Haga clic en él, luego seleccione para ambos conjuntos de datos el id llave. Deje el tipo de unión como Interior. Debe tener un aspecto como este:

  1. Elige Guardar cerrar.
  2. Elige Crear conjunto de datos. Dé un nombre al conjunto de datos.
  3. Navegue hasta el flujo de datos y verá lo siguiente.
  4. Para explorar rápidamente los datos del préstamo, elija Obtener información de datos y seleccione el loan_status columna de destino y Clasificación tipo de problema

El generado Informe de calidad y conocimiento de los datos proporciona estadísticas clave, visualizaciones y análisis de importancia de características.

  1. Revise las advertencias sobre problemas de calidad de los datos y clases desequilibradas para comprender y mejorar el conjunto de datos.

Para el conjunto de datos en este caso de uso, debe esperar una advertencia de alta prioridad de "Puntuación de modelo rápido muy baja" y una eficacia del modelo muy baja en clases minoritarias (descartadas y actuales), lo que indica la necesidad de limpiar y equilibrar los datos. Referirse a Documentación del lienzo para obtener más información sobre el informe de información sobre datos.


Con más de 300 transformaciones integradas impulsadas por SageMaker Data Wrangler, SageMaker Canvas le permite gestionar rápidamente los datos del préstamo. Puedes hacer clic en Agregar pasoy explore o busque las transformaciones adecuadas. Para este conjunto de datos, utilice Caída perdida Manejar valores atípicos para limpiar datos, luego aplicar Codificación one-hot, y Vectorizar texto para crear funciones para ML.

Chat para preparación de datos es una nueva capacidad de lenguaje natural que permite el análisis de datos intuitivo al describir las solicitudes en un inglés sencillo. Por ejemplo, puede obtener estadísticas y análisis de correlación de características sobre los datos del préstamo utilizando frases naturales. SageMaker Canvas comprende y ejecuta las acciones a través de interacciones conversacionales, llevando la preparación de datos al siguiente nivel.


Podemos utilizar Chat para preparación de datos y transformación incorporada para equilibrar los datos del préstamo.

  1. Primero, ingrese las siguientes instrucciones: replace “charged off” and “current” in loan_status with “default”

Chat para preparación de datos genera código para fusionar dos clases minoritarias en una default clase.

  1. Elige el incorporado HERIDO Función de transformación para generar datos sintéticos para la clase predeterminada.

Ahora tiene una columna objetivo equilibrada.

  1. Después de limpiar y procesar los datos del préstamo, regenere el Informe de calidad y conocimiento de los datos para revisar mejoras.

La advertencia de alta prioridad ha desaparecido, lo que indica una mejor calidad de los datos. Puede agregar más transformaciones según sea necesario para mejorar la calidad de los datos para el entrenamiento de modelos.

Escalar y automatizar el procesamiento de datos

Para automatizar la preparación de datos, puede ejecutar o programar todo el flujo de trabajo como un trabajo de procesamiento distribuido de Spark para procesar todo el conjunto de datos o cualquier conjunto de datos nuevo a escala.

  1. Dentro del flujo de datos, agregue un nodo de destino de Amazon S3.
  2. Inicie un trabajo de procesamiento de SageMaker eligiendo Crear trabajo.
  3. Configure el trabajo de procesamiento y elija Crear, lo que permite que el flujo se ejecute en cientos de GB de datos sin muestreo.

Los flujos de datos se pueden incorporar en canalizaciones MLOps de un extremo a otro para automatizar el ciclo de vida del aprendizaje automático. Los flujos de datos pueden ingresar a los cuadernos de SageMaker Studio como paso de procesamiento de datos en una canalización de SageMaker o para implementar una canalización de inferencia de SageMaker. Esto permite automatizar el flujo desde la preparación de datos hasta la capacitación y el alojamiento de SageMaker.

Construya e implemente el modelo en SageMaker Canvas

Después de la preparación de los datos, podemos exportar sin problemas el conjunto de datos final a SageMaker Canvas para crear, entrenar e implementar un modelo de predicción de pagos de préstamos.

  1. Elige Crear modelo en el último nodo del flujo de datos o en el panel de nodos.

Esto exporta el conjunto de datos e inicia el flujo de trabajo de creación de modelos guiados.

  1. Asigne un nombre al conjunto de datos exportado y elija Exportar.
  2. Elige Crear modelo de la notificación.
  3. Nombra el modelo, selecciona Análisis predictivo, y elige Crear.

Esto lo redirigirá a la página de creación de modelos.

  1. Continúe con la experiencia de creación de modelos de SageMaker Canvas eligiendo la columna de destino y el tipo de modelo, luego elija Construcción rápida or Construcción estándar.

Para obtener más información sobre la experiencia de construcción de modelos, consulte Construir un modelo.

Cuando se completa el entrenamiento, puede utilizar el modelo para predecir nuevos datos o implementarlos. Referirse a Implemente modelos de aprendizaje automático creados en Amazon SageMaker Canvas en puntos finales en tiempo real de Amazon SageMaker para obtener más información sobre cómo implementar un modelo desde SageMaker Canvas.

Conclusión

En esta publicación, demostramos las capacidades de extremo a extremo de SageMaker Canvas al asumir el rol de un profesional de datos financieros que prepara datos para predecir el pago de préstamos, con tecnología de SageMaker Data Wrangler. La preparación interactiva de datos permitió limpiar, transformar y analizar rápidamente los datos del préstamo para diseñar funciones informativas. Al eliminar las complejidades de la codificación, SageMaker Canvas nos permitió iterar rápidamente para crear un conjunto de datos de entrenamiento de alta calidad. Este flujo de trabajo acelerado conduce directamente a la creación, capacitación e implementación de un modelo de aprendizaje automático eficaz para lograr un impacto empresarial. Con su preparación integral de datos y su experiencia unificada desde datos hasta conocimientos, SageMaker Canvas le permite mejorar sus resultados de aprendizaje automático. Para obtener más información sobre cómo acelerar su transición de los datos a la información empresarial, consulte Jornada de inmersión en SageMaker Canvas y guía del usuario de AWS.


Sobre los autores

El Dr. Changsha Ma es especialista en IA/ML en AWS. Es tecnóloga con un doctorado en Ciencias de la Computación, una maestría en Psicología de la Educación y años de experiencia en ciencia de datos y consultoría independiente en AI/ML. Le apasiona investigar enfoques metodológicos para la inteligencia humana y de máquinas. Fuera del trabajo, le encanta hacer senderismo, cocinar, cazar y pasar tiempo con amigos y familiares.

Ajjay Govindaram es arquitecto sénior de soluciones en AWS. Trabaja con clientes estratégicos que usan AI/ML para resolver problemas comerciales complejos. Su experiencia radica en brindar dirección técnica y asistencia en el diseño para implementaciones de aplicaciones de IA/ML de modestas a grandes escalas. Su conocimiento abarca desde arquitectura de aplicaciones hasta big data, análisis y aprendizaje automático. Le gusta escuchar música mientras descansa, experimentar el aire libre y pasar tiempo con sus seres queridos.

Huong Nguyen es gerente sénior de productos en AWS. Lidera la preparación de datos de aprendizaje automático para SageMaker Canvas y SageMaker Data Wrangler, con 15 años de experiencia en la creación de productos centrados en el cliente y basados ​​en datos.

punto_img

Información más reciente

punto_img