Logotipo de Zephyrnet

Acelerando el desarrollo de IA/ML en BMW Group con Amazon SageMaker Studio | Servicios web de Amazon

Fecha:

Esta publicación está coescrita con Marc Neumann, Amor Steinberg y Marinus Krommenhoek de BMW Group.

La BMW Group – con sede en Munich, Alemania – cuenta con 149,000 empleados en todo el mundo y fabrica en más de 30 instalaciones de producción y montaje en 15 países. Hoy en día, BMW Group es el fabricante líder mundial de automóviles y motocicletas premium, y proveedor de servicios financieros y de movilidad premium. BMW Group marca tendencias en tecnología de producción y sostenibilidad como líder en innovación con una combinación inteligente de materiales, un cambio tecnológico hacia la digitalización y una producción eficiente en el uso de recursos.

En un mundo cada vez más digital y que cambia rápidamente, las estrategias comerciales y de desarrollo de productos de BMW Group dependen en gran medida de la toma de decisiones basada en datos. Con esto, la necesidad de científicos de datos e ingenieros de aprendizaje automático (ML) ha aumentado significativamente. Estos profesionales capacitados tienen la tarea de construir e implementar modelos que mejoren la calidad y la eficiencia de los procesos comerciales de BMW y permitan decisiones de liderazgo informadas.

Los científicos de datos y los ingenieros de ML necesitan herramientas capaces y computación suficiente para su trabajo. Por lo tanto, BMW estableció una infraestructura centralizada de aprendizaje profundo/ML en sus instalaciones hace varios años y la actualizó continuamente. Para allanar el camino para el crecimiento de la IA, BMW Group necesitaba dar un salto en cuanto a escalabilidad y elasticidad, al tiempo que reducía los gastos operativos, las licencias de software y la gestión de hardware.

En esta publicación, hablaremos sobre cómo BMW Group, en colaboración con AWS Professional Services, creó su servicio Jupyter Managed (JuMa) para abordar estos desafíos. JuMa es un servicio de la plataforma de inteligencia artificial de BMW Group para sus analistas de datos, ingenieros de aprendizaje automático y científicos de datos que proporciona un espacio de trabajo fácil de usar con un entorno de desarrollo integrado (IDE). Está impulsado por Estudio Amazon SageMaker y proporciona JupyterLab para Python y Posit Workbench para R. Esta oferta permite a los ingenieros de ML de BMW realizar análisis de datos y ML centrados en el código, aumenta la productividad de los desarrolladores al proporcionar capacidad de autoservicio y automatización de la infraestructura, y se integra estrechamente con el panorama de herramientas de TI centralizadas de BMW.

JuMa ahora está disponible para todos los científicos de datos, ingenieros de ML y analistas de datos de BMW Group. El servicio agiliza los flujos de trabajo de producción y desarrollo de ML (MLOps) en BMW al proporcionar un entorno de desarrollo escalable y rentable que facilita la colaboración perfecta entre los equipos de ingeniería y ciencia de datos de todo el mundo. Esto da como resultado una experimentación más rápida y ciclos de validación de ideas más cortos. Además, la infraestructura de JuMa, que se basa en AWS sin servidor y servicios gestionados, ayuda a reducir los gastos operativos de los equipos de DevOps y les permite centrarse en habilitar casos de uso y acelerar la innovación en IA en BMW Group.

Desafíos de hacer crecer una plataforma de IA local

Antes de presentar el servicio JuMa, los equipos de BMW de todo el mundo utilizaban dos plataformas locales que proporcionaban a los equipos los entornos JupyterHub y RStudio. Estas plataformas eran demasiado limitadas en cuanto a CPU, GPU y memoria para permitir la escalabilidad de la IA en BMW Group. Escalar estas plataformas con la gestión de más hardware local, más licencias de software y tarifas de soporte requeriría importantes inversiones iniciales y grandes esfuerzos para su mantenimiento. Además, había capacidades limitadas de autoservicio disponibles, lo que requería un gran esfuerzo operativo para sus equipos de DevOps. Más importante aún, el uso de estas plataformas no estaba alineado con la estrategia de TI de BMW Group de dar prioridad a la nube. Por ejemplo, los equipos que utilizan estas plataformas no pudieron migrar fácilmente sus prototipos de IA/ML a la industrialización de la solución que se ejecuta en AWS. Por el contrario, los equipos de análisis y ciencia de datos que ya utilizaban AWS directamente para la experimentación también necesitaban encargarse de construir y operar su infraestructura de AWS y, al mismo tiempo, garantizar el cumplimiento de las políticas internas, las leyes y regulaciones locales de BMW Group. Esto incluyó una variedad de actividades de configuración y gobernanza, desde ordenar cuentas de AWS, limitar el acceso a Internet, usar paquetes listados permitidos hasta mantener actualizadas sus imágenes de Docker.

Resumen de la solución

JuMa es un servicio de plataforma de IA reforzado con seguridad y multiinquilino totalmente administrado creado en AWS con Estudio SageMaker en el núcleo. Al confiar en los servicios administrados y sin servidor de AWS como los principales componentes de la infraestructura, el equipo de JuMa DevOps no necesita preocuparse por aplicar parches a los servidores, actualizar el almacenamiento ni administrar ningún otro componente de la infraestructura. El servicio maneja todos esos procesos automáticamente, proporcionando una poderosa plataforma técnica que generalmente está actualizada y lista para usar.

Los usuarios de JuMa pueden solicitar fácilmente un espacio de trabajo a través de un portal de autoservicio para crear un entorno de desarrollo y experimentación seguro y aislado para sus equipos. Después de aprovisionar un espacio de trabajo de JuMa, los usuarios pueden iniciar los entornos de banco de trabajo JupyterLab o Posit en SageMaker Studio con solo unos pocos clics e iniciar el desarrollo de inmediato, utilizando las herramientas y marcos con los que están más familiarizados. JuMa está estrechamente integrado con una gama de servicios de TI de BMW Central, incluida la gestión de identidades y accesos, gestión de roles y derechos, Centro de datos en la nube de BMW (lago de datos de BMW en AWS) y bases de datos locales. Este último ayuda a los equipos de IA/ML a acceder sin problemas a los datos necesarios, siempre que estén autorizados para hacerlo, sin necesidad de crear canales de datos. Además, los cuadernos se pueden integrar en los repositorios Git corporativos para colaborar mediante el control de versiones.

La solución elimina todas las complejidades técnicas asociadas con la administración, configuración y personalización de cuentas de AWS para equipos de IA/ML, permitiéndoles centrarse completamente en la innovación de IA. La plataforma garantiza que la configuración del espacio de trabajo cumpla con los requisitos de seguridad y cumplimiento de BMW desde el primer momento.

El siguiente diagrama describe la vista contextual de alto nivel de la arquitectura.

Viaje del usuario

Los miembros del equipo BMW AI/ML pueden solicitar su espacio de trabajo JuMa utilizando el servicio de catálogo estándar de BMW. Después de la aprobación del superior directo, la plataforma aprovisiona el espacio de trabajo JuMa solicitado de forma totalmente automática. El flujo de trabajo de aprovisionamiento del espacio de trabajo incluye los siguientes pasos (según los números en el diagrama de arquitectura).

  1. Un equipo de científicos de datos encarga un nuevo espacio de trabajo JuMa en el catálogo de BMW. JuMa aprovisiona automáticamente una nueva cuenta de AWS para el espacio de trabajo. Esto garantiza un aislamiento total entre los espacios de trabajo siguiendo la estructura de cuentas modelo federada mencionada en Mejores prácticas de administración de SageMaker Studio.
  2. JuMa configura un espacio de trabajo (que es un dominio sabio) que sólo permite predefinidos Amazon SageMaker características necesarias para la experimentación y el desarrollo, núcleos personalizados específicos y configuraciones del ciclo de vida. También configura las subredes y los grupos de seguridad necesarios que garantizan que los portátiles se ejecuten en un entorno seguro.
  3. Una vez aprovisionados los espacios de trabajo, los usuarios autorizados inician sesión en el portal de JuMa y acceden al IDE de SageMaker Studio dentro de su espacio de trabajo mediante una URL prefirmada de SageMaker. Los usuarios pueden elegir entre abrir un espacio privado de SageMaker Studio o un espacio compartido. Los espacios compartidos fomentan la colaboración entre diferentes miembros de un equipo que pueden trabajar en paralelo en los mismos portátiles, mientras que los espacios privados permiten un entorno de desarrollo para cargas de trabajo solitarias.
  4. Al utilizar el portal de datos de BMW, los usuarios pueden solicitar acceso a bases de datos locales o a datos almacenados en el Cloud Data Hub de BMW, poniéndolos a disposición en su espacio de trabajo para el desarrollo y la experimentación, desde la preparación y el análisis de datos hasta la capacitación y validación de modelos.

Una vez desarrollado y validado un modelo de IA en JuMa, los equipos de IA pueden utilizar el servicio MLOP de la plataforma de IA de BMW para implementarlo en producción de forma rápida y sin esfuerzo. Este servicio proporciona a los usuarios una infraestructura y canalizaciones de aprendizaje automático de nivel de producción en AWS utilizando SageMaker, que se puede configurar en minutos con solo unos pocos clics. Los usuarios simplemente necesitan alojar su modelo en la infraestructura aprovisionada y personalizar la canalización para satisfacer las necesidades de su caso de uso específico. De esta manera, la plataforma de IA cubre todo el ciclo de vida de la IA en BMW Group.

Características de JuMa

Siguiendo las mejores prácticas de arquitectura en AWS, el servicio JuMa se diseñó e implementó de acuerdo con las Marco bien diseñado de AWS. Las decisiones arquitectónicas de cada pilar bien arquitectónico se describen en detalle en las siguientes secciones.

Seguridad y cumplimiento

Para garantizar un aislamiento total entre los inquilinos, cada espacio de trabajo recibe su propia cuenta de AWS, donde los usuarios autorizados pueden colaborar conjuntamente en tareas de análisis, así como en el desarrollo y experimentación con modelos de IA/ML. El propio portal JuMa impone el aislamiento en tiempo de ejecución utilizando un aislamiento basado en políticas con Gestión de identidades y accesos de AWS (IAM) y el contexto del usuario de JuMa. Para obtener más información sobre esta estrategia, consulte Aislamiento en tiempo de ejecución basado en políticas con IAM.

Los científicos de datos sólo pueden acceder a su dominio a través de la red de BMW a través de URL prefirmadas generadas por el portal. El acceso directo a Internet está deshabilitado dentro de su dominio. Sus privilegios de dominio de Sagemaker se crean utilizando Administrador de funciones de Amazon SageMaker personas para garantizar el acceso con privilegios mínimos a los servicios de AWS necesarios para el desarrollo, como SageMaker, Atenea amazónica, Servicio de almacenamiento simple de Amazon (Amazon S3), y Pegamento AWS. Esta función implementa barreras de seguridad de ML (como las que se describen en Gobernanza y control), incluida la aplicación de la capacitación en LD que se llevará a cabo en cualquiera de los dos casos. Nube privada virtual de Amazon (Amazon VPC) o sin Internet y permitiendo solo el uso de imágenes SageMaker actualizadas y examinadas personalizadas de JuMa.

Dado que JuMa está diseñado para el desarrollo, la experimentación y el análisis ad hoc, implementa políticas de retención para eliminar datos después de 30 días. Para acceder a los datos cuando sea necesario y almacenarlos a largo plazo, JuMa se integra perfectamente con BMW Cloud Data Hub y las bases de datos locales de BMW.

Finalmente, JuMa apoya a múltiples regiones para cumplir con situaciones legales locales especiales que, por ejemplo, le exigen procesar datos localmente para permitir la soberanía de datos de BMW.

Excelencia operacional

Tanto el backend de la plataforma JuMa como los espacios de trabajo se implementan con AWS sin servidor y servicios gestionados. El uso de esos servicios ayuda a minimizar el esfuerzo del equipo de la plataforma BMW para mantener y operar la solución de extremo a extremo, esforzándose por ser un servicio sin operaciones. Tanto el espacio de trabajo como el portal se monitorean mediante Reloj en la nube de Amazon registros, métricas y alarmas para comprobar los indicadores clave de rendimiento (KPI) y notificar proactivamente al equipo de la plataforma sobre cualquier problema. Además, el Rayos X de AWS El sistema de seguimiento distribuido se utiliza para rastrear solicitudes en múltiples componentes y anotar registros de CloudWatch con contexto relevante para el espacio de trabajo.

Todos los cambios en la infraestructura de JuMa se gestionan e implementan mediante automatización utilizando infraestructura como código (IaC). Esto ayuda a reducir los esfuerzos manuales y los errores humanos, aumentar la coherencia y garantizar cambios reproducibles y controlados por versiones en ambos espacios de trabajo backend de la plataforma JuMa. Específicamente, todos los espacios de trabajo se aprovisionan y actualizan a través de un proceso de incorporación construido sobre Funciones de paso de AWS, Construcción de código AWSy Terraform. Por lo tanto, no se requiere configuración manual para incorporar nuevos espacios de trabajo a la plataforma JuMa.

Optimización de costos

Al utilizar los servicios sin servidor de AWS, JuMa garantiza escalabilidad bajo demanda, tamaños de instancia aprobados previamente y un modelo de pago por uso para los recursos utilizados durante las actividades de desarrollo y experimentación según las necesidades de los equipos de IA/ML. Para optimizar aún más los costos, la plataforma JuMa monitorea e identifica los recursos inactivos dentro de SageMaker Studio y los apaga automáticamente para evitar gastos por recursos no utilizados.

Sostenibilidad

JuMa reemplaza las dos plataformas locales de BMW para cargas de trabajo de análisis y aprendizaje profundo que consumen una cantidad considerable de electricidad y producen emisiones de CO2 incluso cuando no están en uso. Al migrar las cargas de trabajo de IA/ML desde las instalaciones a AWS, BMW reducirá su impacto ambiental al desmantelar las plataformas locales.

Además, el mecanismo para el apagado automático de recursos inactivos, las políticas de retención de datos y los informes de uso del espacio de trabajo para sus propietarios implementados en JuMa ayudan a minimizar aún más la huella ambiental de la ejecución de cargas de trabajo de IA/ML en AWS.

Eficiencia en el desempeño

Al utilizar SageMaker Studio, los equipos de BMW se benefician de una fácil adopción de las últimas funciones de SageMaker que pueden ayudar a acelerar su experimentación. Por ejemplo, pueden utilizar JumpStart de Amazon SageMaker capacidades para utilizar los últimos modelos de código abierto previamente entrenados. Además, ayuda a reducir los esfuerzos del equipo de IA/ML al pasar de la experimentación a la industrialización de soluciones, porque el entorno de desarrollo proporciona los mismos servicios principales de AWS pero restringidos a las capacidades de desarrollo.

Fiabilidad

Los dominios de SageMaker Studio se implementan en modo solo VPC para administrar el acceso a Internet y solo permitir el acceso a los servicios de AWS previstos. La red se implementa en dos zonas de disponibilidad para proteger contra un único punto de falla, logrando una mayor resiliencia y disponibilidad de la plataforma para sus usuarios.

Los cambios en los espacios de trabajo de JuMa se implementan y prueban automáticamente en entornos de desarrollo e integración, utilizando canalizaciones de IaC y CI/CD, antes de actualizar los entornos de los clientes.

Finalmente, los datos almacenados en Sistema de archivos elástico de Amazon (Amazon EFS) para los dominios de SageMaker Studio se conserva después de eliminar los volúmenes con fines de copia de seguridad.

Conclusión

En esta publicación, describimos cómo BMW Group, en colaboración con AWS ProServe, desarrolló un servicio de plataforma de IA totalmente administrado en AWS utilizando SageMaker Studio y otros servicios administrados y sin servidor de AWS.

Con JuMa, los equipos de IA/ML de BMW están capacitados para desbloquear nuevo valor comercial al acelerar la experimentación y el tiempo de comercialización de soluciones disruptivas de IA. Además, al migrar desde su plataforma local, BMW puede reducir los esfuerzos y costos operativos generales y al mismo tiempo aumentar la sostenibilidad y la postura general de seguridad.

Para obtener más información sobre cómo ejecutar sus cargas de trabajo de desarrollo y experimentación de IA/ML en AWS, visite Estudio Amazon SageMaker.


Acerca de los autores

Marc Neumann es el jefe de la plataforma central de IA en BMP Group. Es responsable de desarrollar e implementar estrategias para utilizar la tecnología de inteligencia artificial para la creación de valor empresarial en todo BMW Group. Su objetivo principal es garantizar que el uso de la IA sea sostenible y escalable, lo que significa que se puede aplicar de manera consistente en toda la organización para impulsar el crecimiento y la innovación a largo plazo. A través de su liderazgo, Neumann pretende posicionar a BMW Group como líder en innovación impulsada por IA y creación de valor en la industria automotriz y más allá.

Amor Steinberg es ingeniero de aprendizaje automático en BMW Group y líder de servicio de Jupyter Managed, un nuevo servicio que tiene como objetivo proporcionar un banco de trabajo de aprendizaje automático y análisis centrado en código para ingenieros y científicos de datos de BMW Group. Su experiencia pasada como ingeniero de DevOps en instituciones financieras le permitió adquirir una comprensión única de los desafíos que enfrentan los bancos en la Unión Europea y mantener el equilibrio entre la lucha por la innovación tecnológica, el cumplimiento de las leyes y regulaciones y la maximización de la seguridad para los clientes.

Marinus Krommenhoek es arquitecto senior de soluciones en la nube y desarrollador de software en BMW Group. Le entusiasma modernizar el panorama de TI con servicios de última generación que agreguen alto valor y sean fáciles de mantener y operar. Marinus es un gran defensor de los microservicios, las arquitecturas sin servidor y el trabajo ágil. Tiene un historial de trabajo con equipos distribuidos en todo el mundo dentro de grandes empresas.

Nicolás Jacob Baer es arquitecto principal de aplicaciones en la nube en AWS ProServe con un fuerte enfoque en ingeniería de datos y aprendizaje automático, con sede en Suiza. Trabaja en estrecha colaboración con clientes empresariales para diseñar plataformas de datos y crear análisis avanzados y casos de uso de ML.

Joaquín Rinaudo es arquitecto de seguridad principal en AWS ProServe. Le apasiona crear soluciones que ayuden a los desarrolladores a mejorar la calidad de su software. Antes de AWS, trabajó en múltiples dominios de la industria de la seguridad, desde seguridad móvil hasta la nube y temas relacionados con el cumplimiento. En su tiempo libre, Joaquín disfruta pasar tiempo con la familia y leer novelas de ciencia ficción.

Shukhrat Jodjaev es gerente sénior de participación global en AWS ProServe. Se especializa en ofrecer soluciones impactantes de big data e IA/ML que permiten a los clientes de AWS maximizar el valor de su negocio mediante la utilización de datos.

punto_img

Información más reciente

punto_img