Sesiones interactivas de AWS Glue ofrecen una manera poderosa de explorar iterativamente conjuntos de datos y ajustar las transformaciones utilizando cuadernos compatibles con Jupyter. Las sesiones interactivas le permiten trabajar con una selección de entornos de desarrollo integrados (IDE) populares en su entorno local o con Pegamento AWS or Estudio Amazon SageMaker cuadernos en el Consola de administración de AWS, todo ello mientras se aprovecha a la perfección el poder de un backend Apache Spark escalable y bajo demanda. Esta publicación es parte de una serie explorando las características de las sesiones interactivas de AWS Glue.
Las sesiones interactivas de AWS Glue ahora incluyen soporte nativo para la biblioteca de visualización matplotlib (AWS Glue versión 3.0 y posteriores). En esta publicación, analizamos cómo podemos usar matplotlib y Seaborn para explorar y visualizar datos mediante sesiones interactivas de AWS Glue, lo que facilita información rápida sin una configuración de infraestructura compleja.
Resumen de la solución
solicite aprovisione rápidamente nuevas sesiones interactivas directamente desde su computadora portátil sin necesidad de interactuar con el Interfaz de línea de comandos de AWS (AWS CLI) o la consola. Puedes usar comandos magicos para proporcionar opciones de configuración para su sesión e instalar cualquier módulo Python adicional que sea necesario.
En esta publicación, utilizamos los conjuntos de datos clásicos Iris y MNIST para navegar a través de algunas técnicas de visualización comúnmente utilizadas usando matplotlib en sesiones interactivas de AWS Glue.
Cree visualizaciones mediante sesiones interactivas de AWS Glue
Comenzamos instalando las bibliotecas Sklearn y Seaborn usando el additional_python_modules
Comando mágico de Jupyter:
También puede cargar módulos de rueda de Python en Servicio de almacenamiento simple de Amazon (Amazon S3) y especifique la ruta completa como valor de parámetro al additional_python_modules
comando mágico.
Ahora, ejecutemos algunas visualizaciones en el Iris y MNIST conjuntos de datos
- Cree un diagrama de pares utilizando Seaborn para descubrir patrones dentro de las medidas de sépalos y pétalos en todas las especies de iris:
- Cree un diagrama de violín para revelar la distribución de la medida del ancho del sépalo en las tres especies de flores de iris:
- Cree un mapa de calor para mostrar correlaciones entre las variables del conjunto de datos del iris:
- Cree un diagrama de dispersión en el conjunto de datos MNIST usando PCA para visualizar distribuciones entre los dígitos escritos a mano:
- Cree otra visualización usando matplotlib y el kit de herramientas mplot3d:
Como se ilustra en los ejemplos anteriores, puede utilizar cualquier biblioteca de visualización compatible instalando los módulos necesarios y luego utilizando el %matplot
comando mágico.
Conclusión
En esta publicación, analizamos cómo los desarrolladores y científicos de datos de extracción, transformación y carga (ETL) pueden visualizar de manera eficiente patrones en sus datos utilizando bibliotecas familiares a través de sesiones interactivas de AWS Glue. Con esta funcionalidad, podrá concentrarse en extraer información valiosa de sus datos, mientras AWS Glue maneja el trabajo pesado de la infraestructura mediante un modelo informático sin servidor. Para comenzar hoy, consulte Desarrollo de trabajos de AWS Glue con portátiles y sesiones interactivas.
Sobre los autores
annie nelson es arquitecto senior de soluciones en AWS. Es una entusiasta de los datos que disfruta resolviendo problemas y abordando desafíos arquitectónicos complejos con los clientes.
Keerthi Chadalavada es ingeniero sénior de desarrollo de software en AWS Glue. Le apasiona diseñar y crear soluciones integrales para abordar las necesidades analíticas e de integración de datos de los clientes.
zach mitchell es un arquitecto sénior de Big Data. Trabaja dentro del equipo de producto para mejorar la comprensión entre los ingenieros de producto y sus clientes, mientras los guía a lo largo de su recorrido para desarrollar su arquitectura de datos empresariales en AWS.
chica heyne es gerente de producto de AWS Glue con un fuerte enfoque en AI/ML, ingeniería de datos y BI. Le apasiona desarrollar una comprensión profunda de las necesidades comerciales de los clientes y colaborar con ingenieros para diseñar productos de datos fáciles de usar.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/big-data/explore-visualizations-with-aws-glue-interactive-sessions/