Logotipo de Zephyrnet

Creación de entornos de aprendizaje automático seguros con Amazon SageMaker

Fecha:

A medida que las empresas y los líderes de TI buscan acelerar la adopción del aprendizaje automático (ML) y la inteligencia artificial (AI), existe una necesidad creciente de comprender cómo crear entornos de ML seguros y compatibles que cumplan con los requisitos empresariales. Un desafío importante al que puede enfrentarse es la integración de los flujos de trabajo de ML en los flujos de trabajo empresariales y de TI existentes. Un segundo desafío es reunir a las partes interesadas del liderazgo empresarial, la ciencia de datos, la ingeniería, el riesgo y el cumplimiento y la ciberseguridad para definir los requisitos y las medidas de seguridad de la organización. En tercer lugar, dado que la creación de entornos de aprendizaje automático seguros en la nube es un tema relativamente nuevo, comprender las prácticas recomendadas también es útil.

En esta publicación, presentamos una serie de talleres prácticos y artefactos de código asociados para ayudarlo a crear entornos de aprendizaje automático seguros sobre Amazon SageMaker, un servicio completamente administrado que brinda a todos los desarrolladores y científicos de datos la capacidad de crear, entrenar e implementar modelos de aprendizaje automático rápidamente. El objetivo de estos talleres es abordar los desafíos antes mencionados ayudando a reunir a diferentes partes interesadas de TI y científicos de datos y proporcionar las mejores prácticas para construir y operar entornos de aprendizaje automático seguros. Estos talleres son un resumen de las prácticas recomendadas de las grandes y pequeñas y medianas empresas. Puedes acceder a estos talleres en Creación de entornos seguros, y puede encontrar el código asociado en GitHub. Creemos que estos talleres son valiosos para los siguientes equipos primarios:

  • Ingeniería en la nube - Este equipo es responsable de crear y mantener un conjunto de medidas de seguridad en toda la empresa para operar en la nube. Los requisitos clave para estos equipos incluyen el aislamiento de la Internet pública, la restricción de los flujos de tráfico de datos, el uso de estrictos Gestión de identidades y accesos de AWS (IAM) para permitir que solo los usuarios autorizados y autenticados tengan la capacidad de acceder a los recursos del proyecto, y el uso de metodologías de defensa en profundidad para detectar y mitigar amenazas potenciales. Este equipo puede utilizar herramientas como Catálogo de servicios de AWS para construir patrones repetibles usando infraestructura como prácticas de código (IaC) a través de Formación en la nube de AWS.
  • Plataforma ML: Este equipo es responsable de crear y mantener la infraestructura para respaldar los servicios de ML, como el aprovisionamiento de cuadernos para que los usen los científicos de datos, la creación de depósitos seguros para almacenar datos, la gestión de los costos de ML de varias líneas de negocio (LOB) y más.
  • COE de ciencia de datos: Los científicos de datos dentro de un Centro de Excelencia de IA (COE) o integrados dentro de los LOB son responsables de construir, entrenar e implementar modelos. En las industrias reguladas, los científicos de datos deben adherirse a los límites de seguridad de la organización, como el uso de depósitos cifrados para el acceso a los datos, el uso de redes privadas para acceder a las API, la confirmación del código para el control de la fuente, garantizar que todos sus experimentos y pruebas se registren correctamente, imponer el cifrado de datos en tránsito y monitoreo de modelos implementados.

El siguiente diagrama es la arquitectura para el entorno seguro desarrollada en este taller.

El siguiente diagrama es la arquitectura para el entorno seguro desarrollada en este taller.

En Creación de entornos seguros Taller dirigido a los equipos de la plataforma de aprendizaje automático e ingeniería en la nube, cubrimos cómo se puede configurar esta arquitectura en los laboratorios 1–2. Específicamente, usamos AWS Service Catalog para brindar servicios compartidos. Nube privada virtual de Amazon (Amazon VPC), que aloja un repositorio privado de paquetes PyPI para extraer paquetes de un Servicio de almacenamiento simple de Amazon (Amazon S3) a través de un punto de enlace de VPC seguro.

Una vez que se aprovisiona el entorno, el siguiente diagrama de arquitectura ilustra el flujo de trabajo típico del científico de datos dentro de la VPC del proyecto, que se trata en detalle en el taller. Usar entornos seguros dirigido a científicos de datos.

Una vez que se aprovisiona el entorno, el siguiente diagrama de arquitectura ilustra el flujo de trabajo típico del científico de datos dentro de la VPC del proyecto.

Este taller configura rápidamente el entorno seguro (pasos 1 a 3) y luego se centra en el uso de instancias de notebook de SageMaker para explorar y procesar datos de forma segura (pasos 4 a 5). Después de eso, entrenamos un modelo (Pasos 6 a 7) e implementamos y monitoreamos el modelo y los metadatos del modelo (8 a 9) mientras aplicamos el control de versiones (Paso 4).

Los talleres y el código asociado le permiten implementar prácticas y patrones recomendados y lo ayudan a comenzar rápidamente a crear entornos seguros y mejorar la productividad con la capacidad de construir, entrenar, implementar y monitorear modelos de ML de manera segura. Aunque el taller se construyó utilizando instancias de notebook de SageMaker, en esta publicación destacamos cómo puede adaptar esto a Estudio Amazon SageMaker. Aunque el taller se construyó utilizando instancias de notebook de SageMaker, en esta publicación destacamos cómo puede adaptar esto a Estudio Amazon SageMaker, el primer entorno de desarrollo integrado para el aprendizaje automático en AWS.

Características del taller

El taller es una colección de implementaciones de funciones agrupadas para proporcionar un punto de partida coherente para los clientes que buscan construir entornos seguros de ciencia de datos. Las funciones implementadas se clasifican ampliamente en siete áreas:

  • Haga cumplir sus políticas de TI existentes en su cuenta de AWS y su entorno de ciencia de datos para mitigar los riesgos.
  • Cree entornos con acceso de privilegios mínimos a datos confidenciales con el fin de reducir el radio de explosión de un actor comprometido o malicioso.
  • Proteja los datos confidenciales contra la filtración de datos mediante una serie de controles diseñados para mitigar el riesgo de filtración de datos
  • Cifre los datos confidenciales y la propiedad intelectual en reposo y en tránsito como parte de una estrategia de defensa en profundidad
  • Actividad de seguimiento y auditoría en su entorno
  • Reproduzca los resultados en su entorno mediante el seguimiento del linaje de los artefactos de ML a lo largo del ciclo de vida y el uso de herramientas de control de versiones y fuentes, como Compromiso de código de AWS
  • Administre los costos y permita a los equipos el autoservicio mediante una combinación de etiquetado y AWS Service Catalog para automatizar la creación de entornos seguros.

En las siguientes secciones, cubrimos con más profundidad cómo se han implementado estas diferentes características.

Hacer cumplir las políticas de TI existentes

Al confiar datos confidenciales a los servicios de AWS, necesita tener la confianza de que puede controlar sus datos en el mismo grado con el servicio administrado como si lo estuviera ejecutando usted mismo. Un punto de partida típico para controlar sus datos en un entorno de AWS es crear una VPC que se adapte y configure según sus estándares en términos de seguridad de la información, reglas de firewall y enrutamiento. Esto se convierte en un punto de partida para su entorno de ciencia de datos y los servicios que utilizan los proyectos para cumplir sus objetivos. SageMaker y muchos otros servicios de AWS se pueden implementar en su VPC. Esto le permite usar controles a nivel de red para administrar el Nube informática elástica de Amazon (Amazon EC2) recursos basados ​​en la red. Para obtener información sobre cómo configurar SageMaker Studio en una VPC privada, consulte Asegurar la conectividad de Amazon SageMaker Studio mediante una VPC privada.

Los controles a nivel de red implementados como parte de este taller incluyen lo siguiente:

  • Grupos de seguridad para administrar qué recursos y servicios, como SageMaker, pueden comunicarse con otros recursos en la VPC.
  • Puntos de enlace de VPC para otorgar acceso explícito a servicios de AWS específicos desde dentro de la VPC, como Amazon S3 o Reloj en la nube de Amazon
  • Puntos finales de VPC para otorgar acceso explícito a servicios compartidos administrados por el cliente, como un servidor de repositorio PyPi

El repositorio PyPi de servicio compartido demuestra cómo puede crear repositorios de artefactos administrados que luego se pueden compartir entre los entornos del proyecto. Debido a que los entornos no tienen acceso a Internet abierto, el acceso a los repositorios de bibliotecas y paquetes comunes está restringido a los repositorios que contienen sus paquetes. Esto limita cualquier amenaza potencial de paquetes no aprobados que ingresan a su entorno seguro.

Con el lanzamiento de Código de AWS Artifact, ahora puede usar CodeArtifact como su repositorio privado de PyPi. CodeArtifact proporciona puntos finales de VPC para mantener redes privadas. Para obtener más información sobre cómo integrar CodeArtifact con instancias de notebook de SageMaker y notebooks de Studio, consulte Instalación de paquetes privados en Amazon SageMaker ejecutándose en modo sin Internet.

Además de configurar un entorno de red seguro, este taller también utiliza políticas de IAM para crear un control preventivo que requiere que todos los recursos de SageMaker se aprovisionen dentro de una VPC del cliente. Un AWS Lambda La función también se implementa como un control correctivo para detener los recursos de SageMaker que se aprovisionan sin un adjunto de VPC.

Uno de los elementos únicos de los portátiles SageMaker es que son instancias EC2 gestionadas en las que puede personalizar el sistema operativo. Este taller utiliza las políticas de configuración del ciclo de vida de SageMaker para configurar el sistema operativo Linux del portátil SageMaker para que esté en línea con la política de TI, como deshabilitar el acceso de root para los científicos de datos. Para SageMaker Studio, puede hacer cumplir sus políticas de TI de usar contenedores y paquetes de seguridad aprobados para ejecutar portátiles mediante trayendo tu propia imagen personalizada. SageMaker maneja el control de versiones de las imágenes y proporciona a los científicos de datos un menú desplegable fácil de usar para seleccionar la imagen personalizada de su elección.

Laboratorios 1–3 en el Creación de entornos seguros y Labs 1–2 en el Usar entornos seguros Los talleres se centran en cómo hacer cumplir las políticas de TI en sus entornos de aprendizaje automático.

Acceso con privilegios mínimos a datos confidenciales

En aras del acceso con menos privilegios a los datos confidenciales, es más sencillo proporcionar entornos aislados a cualquier proyecto individual. Estos entornos aislados proporcionan un método para restringir el acceso a los activos administrados por el cliente, los conjuntos de datos y los servicios de AWS proyecto por proyecto, con un menor riesgo de movimiento de datos entre proyectos. A continuación se analizan algunos de los mecanismos clave utilizados en los talleres para proporcionar entornos aislados específicos del proyecto. El taller alberga varios proyectos en una sola cuenta de AWS, pero con la madurez suficiente de la automatización, podría proporcionar el mismo nivel de aislamiento utilizando cuentas de AWS específicas del proyecto. Aunque puede tener varias instancias de notebook de SageMaker dentro de una sola cuenta, solo puede tener un dominio de Studio por región en una cuenta. Por lo tanto, puede utilizar un dominio para crear entornos aislados específicos de proyectos en cuentas separadas.

Para alojar varios proyectos en una sola cuenta de AWS, el taller dedica una VPC privada de un solo inquilino a cada proyecto. Esto crea un límite de red específico del proyecto que otorga acceso a recursos y servicios de AWS específicos mediante puntos de conexión y políticas de puntos de conexión de VPC. Esta combinación crea entornos de proyectos de un solo inquilino lógicamente aislados que están dedicados a un equipo de proyecto.

Además de un entorno de red dedicado, el taller crea recursos de AWS que se dedican a proyectos individuales. Los depósitos de S3, por ejemplo, se crean por proyecto y se vinculan a la VPC del proyecto. Una política de depósito de S3 restringe los objetos del depósito para que solo se pueda acceder a ellos desde la VPC. Del mismo modo, la política de punto de enlace asociada con el punto de enlace de la VPC de Amazon S3 dentro de la VPC solo permite que los principales de la VPC se comuniquen con esos buckets de S3 específicos. Esto podría ampliarse según sea necesario para admitir el acceso a otros depósitos, quizás junto con un lago de datos basado en Amazon S3.

Otros recursos de AWS que se crean en nombre de un proyecto individual incluyen roles de IAM que rigen quién puede acceder al entorno del proyecto y qué permisos tienen dentro del entorno. Esto evita que otros equipos de proyectos accedan a los recursos de la cuenta de AWS que no están dedicados a ese otro proyecto.

Para administrar la propiedad intelectual desarrollada por el proyecto, se crea un repositorio CodeCommit para proporcionar al proyecto un repositorio Git dedicado para administrar y controlar las versiones de su código fuente. Usamos CodeCommit para confirmar cualquier código desarrollado en cuadernos por científicos de datos en los laboratorios 3 a 4 en el Usar entornos seguros taller.

Protección contra la filtración de datos

Como se describió anteriormente, los equipos de proyecto tienen acceso a los servicios y recursos de AWS como Amazon S3 y objetos en Amazon S3 a través de los puntos de enlace de la VPC en la VPC del proyecto. El entorno de VPC aislado le brinda control total sobre la entrada y salida de los datos que fluyen a través del límite de la red. El taller utiliza grupos de seguridad para controlar qué recursos de AWS pueden comunicarse con servicios específicos de AWS. El taller también utiliza políticas de puntos de enlace de VPC para limitar los recursos de AWS a los que se puede acceder mediante los puntos de enlace de VPC.

Cuando los datos están en Amazon S3, la política de depósito aplicada al depósito no permite que los recursos externos a la VPC lean datos del depósito, lo que garantiza que esté vinculado, como almacén de respaldo, a la VPC.

Protección de datos

La aplicación de tecnologías ML a menudo se realiza utilizando datos confidenciales del cliente. Estos datos pueden contener información comercial confidencial, de identificación personal o de propiedad que debe protegerse durante la vida útil de los datos. SageMaker y servicios asociados como Registro de contenedores elásticos de Amazon (Amazon ECR), Amazon S3 y CodeCommit son compatibles con el cifrado de extremo a extremo tanto en reposo como en tránsito.

Cifrado en reposo

SageMaker prefiere obtener información de Amazon S3, que admite varios métodos de cifrado de datos. Para los propósitos de este taller, los depósitos de S3 están configurados para encriptar automáticamente objetos con un llave maestra del cliente (CMK) que se almacena en Servicio de administración de claves de AWS (AWS KMS). También se configura un control preventivo para requerir que los datos ingresados ​​en Amazon S3 se cifren con una clave KMS. Estos dos mecanismos garantizan que los datos almacenados en Amazon S3 se cifren mediante una clave que el cliente administra y controla.

De forma similar a Amazon S3, Amazon ECR también se utiliza para almacenar contenedores Docker creados por el cliente que probablemente contengan propiedad intelectual. Amazon ECR es compatible con cifrado de imágenes en reposo usando una CMK. Esto le permite admitir los requisitos de cumplimiento de PCI-DSS para la autenticación separada del almacenamiento y la criptografía. Con esta función habilitada, Amazon ECR cifra automáticamente las imágenes cuando se envían y las descifra cuando se extraen.

A medida que los datos se mueven a los recursos administrados por SageMaker desde Amazon S3, es importante asegurarse de que el cifrado en el resto de los datos persista. SageMaker admite esto al permitir la especificación de CMK de KMS para cifrar los volúmenes de EBS que contienen los datos recuperados de Amazon S3. Se pueden especificar claves de cifrado para cifrar los volúmenes de todos los recursos de SageMaker basados ​​en Amazon EC2, como trabajos de procesamiento, cuadernos, trabajos de entrenamiento y modelos de puntos finales. En este taller se despliega un control preventivo, que permite el aprovisionamiento de recursos de SageMaker , solamente si se ha especificado una clave KMS para cifrar los volúmenes.

Cifrado en tránsito

AWS hace un uso extensivo de la comunicación HTTPS para sus API. Los servicios mencionados anteriormente no son una excepción. Además de pasar todas las llamadas a la API a través de un canal cifrado TLS, las API de AWS también requieren que las solicitudes se firmen mediante el Versión de firma 4 proceso de firma. Este proceso utiliza claves de acceso de cliente para firmar cada solicitud de API, agregando información de autenticación y evitando la manipulación de la solicitud en vuelo.

Como servicios como SageMaker, Amazon S3 y Amazon ECR interactúan entre sí, también deben comunicarse utilizando paquetes firmados Signature V4 a través de canales HTTPS cifrados. Esto garantiza que la comunicación entre los servicios de AWS esté cifrada según un estándar conocido, lo que protege los datos del cliente mientras se mueven entre los servicios.

Al comunicarse con recursos de SageMaker, como computadoras portátiles o modelos alojados, la comunicación también se realiza a través de solicitudes HTTPS autenticadas y firmadas, como ocurre con otros servicios de AWS.

Cifrado intranodo

SageMaker proporciona un beneficio adicional para proteger sus datos cuando entrena con clústeres distribuidos. Algunos marcos de aprendizaje automático cuando realizan entrenamiento distribuido pasan coeficientes entre las diferentes instancias del algoritmo en texto sin formato. Este estado compartido no son sus datos de entrenamiento, sino la información que los algoritmos requieren para mantenerse sincronizados entre sí. Puede indicar a SageMaker que cifrar la comunicación entre nodos para su trabajo de formación. Los datos que se pasan entre nodos se pasan a través de un túnel cifrado sin que su algoritmo tenga que asumir la responsabilidad de cifrar y descifrar los datos. Para habilitar el cifrado entre nodos, asegúrese de que sus grupos de seguridad estén configurados para permitir el tráfico UDP a través del puerto 500 y que haya configurado EnableInterContainerTrafficEncryption a True. Para obtener instrucciones más detalladas, consulte Proteja las comunicaciones entre instancias de computación de ML en un trabajo de entrenamiento distribuido.

Garantizar el cifrado en reposo y en tránsito durante el flujo de trabajo de AA se trata en detalle en las prácticas de laboratorio 3 a 4 de la Usar entornos seguros taller.

Trazabilidad, reproducibilidad y auditabilidad

Un problema común que puede enfrentar es la falta de prácticas recomendadas en torno al código y la trazabilidad del ciclo de vida del ML. A menudo, esto puede deberse a que los científicos de datos no están capacitados en las mejores prácticas de MLOps (ML y DevOps) y a la naturaleza experimental inherente del proceso de ML. En industrias reguladas como los servicios financieros, los organismos reguladores como la Oficina del Contralor de la Moneda (OCC) y la Junta de la Reserva Federal (FRB) han documentado pautas sobre la gestión del riesgo de los modelos analíticos.

La falta de las mejores prácticas para documentar el ciclo de vida del AA de un extremo a otro puede provocar la pérdida de ciclos al intentar rastrear el código fuente, los hiperparámetros del modelo y los datos de entrenamiento. La siguiente figura muestra los diferentes pasos en el linaje de un modelo que se puede rastrear por razones de rastreabilidad y reproducibilidad.

La siguiente figura muestra los diferentes pasos en el linaje de un modelo que se puede rastrear por razones de rastreabilidad y reproducibilidad.

La trazabilidad se refiere a la capacidad de mapear los resultados de un paso en el ciclo de ML con las entradas de otro, con lo que se tiene un registro de todo el linaje de un modelo. Hacer que los científicos de datos utilicen herramientas de control de versiones y fuentes como Git o BitBucket para verificar el código con regularidad, y no aprobar o promover modelos hasta que el código se haya registrado, puede ayudar a mitigar este problema. En este taller, proporcionamos un repositorio privado de CodeCommit para que lo utilicen los científicos de datos, junto con su instancia de cuaderno. Los administradores pueden etiquetar estos repositorios para los usuarios, para identificar a los usuarios responsables de las confirmaciones y garantizar que el código se revise con frecuencia en el control de fuente. Una forma de hacer esto es utilizar ramas específicas del proyecto y asegurarse de que la rama se haya fusionado con la rama principal en el entorno de servicios compartidos antes de ser promovida a preproducción o prueba. No se debe permitir que los científicos de datos promuevan directamente el código desde el desarrollo hasta la producción sin este paso intermedio.

Además del código de versiones, los datos de versiones utilizados para los modelos de entrenamiento también son importantes. Todos los depósitos creados en este taller tienen el control de versiones habilitado automáticamente para aplicar el control de versiones en cualquier dato almacenado allí, como datos de entrenamiento, datos procesados ​​y datos de entrenamiento, validación y prueba. Experimentos de SageMaker realiza un seguimiento automático del puntero a la versión específica de los datos de entrenamiento utilizados durante el entrenamiento del modelo.

Los científicos de datos a menudo tienden a explorar datos en cuadernos y también a utilizarlos para diseñar funciones. En este taller, demostramos cómo usar Procesamiento SageMaker no solo para descargar el código de ingeniería de características de la instancia del portátil en instancias de cómputo separadas para ejecutar a escala, sino también para rastrear posteriormente los parámetros utilizados para las características de ingeniería en los experimentos de SageMaker por razones de reproducibilidad. SageMaker lanzado recientemente SageMaker aclarar, que le permite detectar sesgos en sus datos y extraer la importancia de las características. Puede ejecutar estos trabajos como lo haría con los trabajos de procesamiento de SageMaker utilizando el Clarificar SDK.

Los experimentos de control de versiones y etiquetado, los trabajos de ajuste de hiperparámetros y los trabajos de procesamiento de datos permiten a los científicos de datos colaborar más rápido. SageMaker Experiments rastrea y registra automáticamente los metadatos de los trabajos de entrenamiento, procesamiento y transformación por lotes de SageMaker, y muestra información relevante como hiperparámetros del modelo, ubicación del artefacto del modelo, metadatos del contenedor del modelo de una manera que se puede buscar. Para más información, ver Experimentos de Amazon SageMaker: organice, realice un seguimiento y compare sus capacitaciones de aprendizaje automático.

Además, realiza un seguimiento de las métricas del modelo que permiten a los científicos de datos comparar diferentes modelos entrenados e identificar los que cumplen con sus objetivos comerciales. También puede usar los Experimentos de SageMaker para rastrear qué usuario inició un trabajo de capacitación y usar claves de condición de IAM para aplicar etiquetas de recursos en las API de Experimento.

Además, en SageMaker Studio, SageMaker Experiments realiza un seguimiento del perfil de usuario del usuario que inicia trabajos, lo que proporciona auditabilidad adicional. Demostramos el uso de los experimentos de SageMaker y cómo puede usar los experimentos para buscar ensayos específicos y extraer los metadatos del modelo en los laboratorios 3 y 4 de la Usar entornos seguros taller.

Aunque capturar con precisión el linaje de los modelos de AA sin duda puede ayudar a reproducir los resultados del modelo, según el nivel de riesgo del modelo, es posible que también deba documentar la importancia de las características de sus modelos. En este taller, demostramos una metodología para hacerlo, utilizando los valores de Shapley. Sin embargo, observamos que este enfoque no es de ninguna manera exhaustivo y debe trabajar con sus equipos de riesgo, legales y de cumplimiento para evaluar los requisitos legales, éticos, regulatorios y de cumplimiento para, y las implicaciones de, la construcción y el uso de sistemas de AA.

Los puntos finales implementados deben monitorearse contra la deriva de datos como una mejor práctica. En estos talleres, demostramos cómo Monitor modelo SageMaker extrae automáticamente las estadísticas de las características como una línea de base, captura la carga útil de entrada y las predicciones del modelo, y verifica cualquier desviación de datos con respecto a la línea de base a intervalos regulares. La desviación detectada se puede visualizar mediante SageMaker Studio y se puede utilizar para establecer umbrales y alarmas para reactivar el reentrenamiento del modelo o alertar a los desarrolladores sobre la desviación del modelo.

Para auditar entornos de AA, los administradores pueden monitorear métricas a nivel de instancia relacionadas con trabajos de entrenamiento, trabajos de procesamiento y trabajos de ajuste de hiperparámetros usando Eventos de CloudWatch. Usted puede utilizar configuraciones de ciclo de vida para publicar también registros de Jupyter en CloudWatch. Aquí demostramos el uso de controles preventivos y de detección para evitar que los científicos de datos lancen trabajos de capacitación fuera del VPC del proyecto. Controles preventivos adicionales que utilizan claves de condición de IAM como sagemaker: InstanceTypes se puede agregar para evitar que los científicos de datos hagan un mal uso de ciertos tipos de instancias (como las instancias de GPU más caras) o para hacer cumplir que los científicos de datos solo entrenan modelos usando Sistema Nitro de AWS instancias, que ofrecen mayor seguridad. Los registros del cuaderno de Studio se publican automáticamente en CloudWatch.

Autoservicio

Los clientes están adoptando rápidamente las mejores prácticas de IaC utilizando herramientas como AWS CloudFormation o HashiCorp Terraform para garantizar la repetibilidad en sus flujos de trabajo en la nube. Sin embargo, un problema constante para los equipos de ciencia de datos y TI en las empresas ha sido el desafío de crear entornos repetibles que se puedan escalar fácilmente en toda la organización.

AWS Service Catalog le permite crear productos que abstraen las plantillas de CloudFormation subyacentes. Estos productos se pueden compartir entre cuentas y se puede aplicar una taxonomía coherente mediante el Biblioteca de TagOptions. Los administradores pueden diseñar productos para que los equipos de ciencia de datos los ejecuten en sus cuentas y que suministren todos los recursos subyacentes automáticamente, al tiempo que permiten a los científicos de datos personalizar recursos como instancias de computación subyacentes (GPU o CPU) requeridas para ejecutar notebooks, pero no permiten que los científicos de datos creen instancias de cuaderno de cualquier otra forma. De manera similar, los administradores pueden exigir que los científicos de datos ingresen su información de usuario mientras crean productos para tener visibilidad sobre quién crea los cuadernos.

Para permitir que los equipos se muevan a gran velocidad y liberar a los equipos de operaciones en la nube restringidos del trabajo fácilmente automatizado, este taller utiliza AWS Service Catalog para automatizar actividades comunes como la creación de portátiles SageMaker. AWS Service Catalog le proporciona una forma de codificar sus propias prácticas recomendadas para implementar activos agrupados lógicamente, como un entorno de equipo de proyecto, y permitir que los equipos de proyecto implementen estos activos por sí mismos.

El Catálogo de servicios de AWS permite a los equipos de operaciones en la nube brindar a los usuarios comerciales una forma de autoservicio y obtener activos bajo demanda que se implementan de manera que cumplen con las políticas de TI internas. Los usuarios comerciales ya no tienen que enviar tickets para actividades comunes y esperar a que el equipo de operaciones en la nube atienda el ticket. Además, AWS Service Catalog proporciona al equipo de operaciones en la nube una ubicación centralizada para comprender quién ha implementado varios activos y administrar esos activos implementados para garantizar que, a medida que evolucione la política de TI, se puedan proporcionar actualizaciones en todos los productos aprovisionados. Esto se trata en detalle en las prácticas de laboratorio 1 y 2 de la Creación de entornos seguros taller.

Manejo de costos

Es importante poder realizar un seguimiento de los gastos durante el ciclo de vida de un proyecto. Para demostrar esta capacidad, el taller utiliza etiquetas de costos para rastrear todos los recursos asociados con un proyecto determinado. Las etiquetas de costo utilizadas en este taller etiquetan recursos como trabajos de capacitación de SageMaker, VPC y depósitos de S3 con el nombre del proyecto y el tipo de entorno (desarrollo, pruebas, producción). Puede utilizar estas etiquetas para identificar los costos de un proyecto en todos los servicios y sus entornos para garantizar que los equipos sean responsables de su consumo. También puede usar SageMaker Processing para descargar tareas de ingeniería de funciones y trabajos de SageMaker Training para entrenar modelos a escala, usar portátiles livianos y ahorrar aún más en costos. Como mostramos en este taller, los administradores pueden hacer cumplir esto directamente al permitir que los científicos de datos creen computadoras portátiles solo a través de AWS Service Catalog utilizando solo tipos de instancia aprobados.

Conclusión

En esta serie de talleres, hemos implementado una serie de características y mejores prácticas que cubren los puntos débiles más comunes que enfrentan los equipos de CTO al aprovisionar y usar entornos seguros para ML. Para obtener una discusión detallada sobre la gobernanza del LD en su aplicación a industrias reguladas como los servicios financieros, consulte Mejores prácticas de aprendizaje automático en servicios financieros. Además, es posible que desee consultar las directrices de AWS Well-Architected que se aplican a máquina de aprendizaje y servicios financieros, respectivamente. No dude en ponerse en contacto con los autores y no dude en ponerse en contacto con sus equipos de cuentas de AWS si desea ejecutar estos laboratorios prácticos.

Seguí leyendo


Acerca de los autores

jason bartojason barto trabaja como arquitecto principal de soluciones con AWS. Jason ayuda a los clientes a acelerar y optimizar su negocio aprovechando los servicios en la nube. Jason tiene 20 años de experiencia profesional en el desarrollo de sistemas para su uso en entornos sensibles y seguros. Ha dirigido equipos de desarrolladores y ha trabajado como arquitecto de sistemas para desarrollar plataformas de análisis a escala de petabytes, sistemas de procesamiento de eventos complejos en tiempo real y sistemas de monitoreo de ciberdefensa. En la actualidad, trabaja con clientes de servicios financieros para implementar sistemas de análisis y datos seguros, resistentes y con recuperación automática mediante tecnologías de código abierto y servicios de AWS.

Stefan Natu es un arquitecto senior de soluciones especializado en AI / ML en Amazon Web Services. Se centra en ayudar a los clientes de servicios financieros a crear soluciones de aprendizaje automático de un extremo a otro en AWS. En su tiempo libre, le gusta leer blogs de aprendizaje automático, tocar la guitarra y explorar la escena gastronómica en la ciudad de Nueva York.

Fuente: https://aws.amazon.com/blogs/machine-learning/building-secure-machine-learning-environments-with-amazon-sagemaker/

punto_img

Información más reciente

punto_img