Logotipo de Zephyrnet

Comenzando con Google Cloud Platform en 5 pasos – KDnuggets

Fecha:

Comenzando con Google Cloud Platform en 5 pasos

Comenzando con Google Cloud Platform en 5 pasos
 

Este artículo tiene como objetivo proporcionar una descripción general paso a paso sobre cómo empezar a utilizar Google Cloud Platform (GCP) para ciencia de datos y aprendizaje automático. Brindaremos una descripción general de GCP y sus capacidades clave para el análisis, explicaremos la configuración de la cuenta y exploraremos servicios esenciales como BigQuery y Almacenamiento en la nube, cree un proyecto de datos de muestra y utilice GCP para el aprendizaje automático. Ya sea que sea nuevo en GCP o esté buscando un repaso rápido, siga leyendo para aprender los conceptos básicos y comenzar a trabajar con Google Cloud.

¿Qué es GCP?

Google Cloud Platform ofrece una amplia gama de servicios de computación en la nube para ayudarlo a crear y ejecutar aplicaciones en la infraestructura de Google. Para la potencia informática, existe Compute Engine que le permite poner en marcha máquinas virtuales. Si necesita ejecutar contenedores, Kubernetes hace el trabajo. BigQuery se encarga de tus necesidades de análisis y almacenamiento de datos. Y con Cloud ML, obtienes modelos de aprendizaje automático previamente entrenados a través de API para cosas como visión, traducción y más. En general, GCP tiene como objetivo proporcionar los componentes básicos que necesita para que pueda concentrarse en crear excelentes aplicaciones sin preocuparse por la infraestructura subyacente.

Beneficios de GCP para la ciencia de datos

GCP ofrece varios beneficios para el análisis de datos y el aprendizaje automático:

  • Recursos informáticos escalables que pueden manejar cargas de trabajo de big data
  • Servicios gestionados como BigQuery para procesar datos a escala
  • Capacidades avanzadas de aprendizaje automático como Cloud AutoML y AI Platform
  • Herramientas y servicios de análisis integrados

Cómo se compara GCP con AWS y Azure

Comparado con Amazon Web Services y Microsoft Azure, GCP destaca por su fortaleza en big data, análisis y aprendizaje automático, y su oferta de servicios administrados como BigQuery y Dataflow para el procesamiento de datos. AI Platform facilita el entrenamiento y la implementación de modelos de aprendizaje automático. En general, GCP tiene un precio competitivo y es la mejor opción para aplicaciones basadas en datos.

Feature Google Cloud Platform (GCP) Servicios Web de Amazon (AWS) microsoft Azure
Precios* Precios competitivos con descuentos por uso sostenido Precios por hora con descuentos en instancias reservadas Precios por minuto con descuentos en instancias reservadas
Almacenamiento de datos BigQuery Desplazamiento hacia el rojo Análisis de sinapsis
Aprendizaje automático (Machine learning & LLM) AutoML en la nube, plataforma de IA SageMaker Azure Machine Learning
Servicios informáticos Motor de cómputo, motor Kubernetes EC2, ECS, EKS Máquinas virtuales, AKS
Ofertas sin servidor Funciones en la nube, App Engine Lambda, Fargate Funciones, aplicaciones lógicas

*Tenga en cuenta que los modelos de precios están necesariamente simplificados para nuestros propósitos. AWS y Azure también ofrecen descuentos por uso sostenido o comprometido similares a GCP; Las estructuras de precios son complejas y pueden variar significativamente en función de una multitud de factores, por lo que se anima al lector a investigar más a fondo para determinar cuáles podrían ser los costos reales en su situación.
 

En esta tabla, comparamos Google Cloud Platform, Amazon Web Services y Microsoft Azure en función de diversas características, como precios, almacenamiento de datos, aprendizaje automático, servicios informáticos y ofertas sin servidor. Cada una de estas plataformas en la nube tiene su propio conjunto único de servicios y modelos de precios, que se adaptan a diferentes requisitos técnicos y comerciales.

Crear una cuenta de Google Cloud

Para utilizar GCP, primero regístrese para obtener una cuenta de Google Cloud. Ve a la página principal y haga clic en “Comenzar gratis”. Siga las instrucciones para crear su cuenta utilizando sus credenciales de Google o Gmail.

Crear una cuenta de facturación

A continuación, deberá configurar una cuenta de facturación y un método de pago. Esto le permite utilizar servicios pagos más allá del nivel gratuito. Navegue a la sección Facturación en la consola y siga las indicaciones para agregar su información de facturación.

Comprender los precios de GCP

GCP ofrece un generoso nivel gratuito de 12 meses con un crédito de $300. Esto permite el uso de productos clave como Compute Engine, BigQuery y más sin costo alguno. Revise las calculadoras de precios y los documentos para estimar los costos totales.

Instalar el SDK de Google Cloud

Instale Cloud SDK en su máquina local para administrar proyectos/recursos a través de la línea de comandos. Descargar desde el Página de guía del SDK de nube y siga la guía de instalación.

 
Por último, asegúrese de echar un vistazo y tener a mano el Comience con Google Cloud documentación.

Google Cloud Platform (GCP) está repleto de una gran variedad de servicios diseñados para satisfacer una variedad de necesidades de ciencia de datos. Aquí, profundizamos en algunos de los servicios esenciales como BigQuery, Cloud Storage y Cloud Dataflow, arrojando luz sobre su funcionalidad y posibles casos de uso.

BigQuery

BigQuery es la base de datos de análisis de bajo costo y totalmente administrada de GCP. Con su modelo sin servidor, BigQuery permite consultas SQL ultrarrápidas en tablas en las que se añaden principalmente, empleando la potencia de procesamiento de la infraestructura de Google. No es sólo una herramienta para ejecutar consultas, sino una solución de almacenamiento de datos sólida y a gran escala, capaz de manejar petabytes de datos. El enfoque sin servidor erradica la necesidad de administradores de bases de datos, lo que lo convierte en una opción atractiva para las empresas que buscan reducir los gastos operativos.

 
Ejemplo: Profundizar en el conjunto de datos públicos de natalidad para obtener información sobre los nacimientos en los EE. UU.

SELECT * FROM `bigquery-public-data.samples.natality`
LIMIT 10

Almacenamiento en la nube

Cloud Storage permite un almacenamiento de objetos robusto, seguro y escalable. Es una excelente solución para empresas ya que permite el almacenamiento y recuperación de grandes cantidades de datos con un alto grado de disponibilidad y confiabilidad. Los datos en Cloud Storage están organizados en depósitos, que funcionan como contenedores individuales de datos y se pueden administrar y configurar por separado. Cloud Storage admite clases de almacenamiento estándar, nearline, coldline y de archivos, lo que permite optimizar el precio y los requisitos de acceso.

 
Ejemplo: cargar un archivo CSV de muestra en un depósito de Cloud Storage mediante la CLI de gsutil.

gsutil cp sample.csv gs://my-bucket

Flujo de datos en la nube

Cloud Dataflow es un servicio totalmente administrado para el procesamiento de datos en flujo y por lotes. Destaca en análisis en tiempo real o casi en tiempo real y admite tareas de extracción, transformación y carga (ETL), así como análisis en tiempo real y casos de uso de inteligencia artificial (IA). Cloud Dataflow está diseñado para manejar las complejidades del procesamiento de grandes cantidades de datos de una manera confiable y tolerante a fallas. Se integra perfectamente con otros servicios de GCP como BigQuery para análisis y Cloud Storage para almacenamiento provisional de datos y resultados temporales, lo que lo convierte en una piedra angular para crear canales de procesamiento de datos de un extremo a otro.

Embarcarse en un proyecto de datos requiere un enfoque sistemático para garantizar resultados precisos y reveladores. En este paso, explicaremos la creación de un proyecto en Google Cloud Platform (GCP), la habilitación de las API necesarias y la preparación del escenario para la ingesta, el análisis y la visualización de datos mediante BigQuery y Data Studio. Para nuestro proyecto, profundicemos en el análisis de datos meteorológicos históricos para discernir las tendencias climáticas.

Configurar proyecto y habilitar API

Comienza tu viaje creando un nuevo proyecto en GCP. Navegue hasta Cloud Console, haga clic en el menú desplegable del proyecto y seleccione "Nuevo proyecto". Nómbrelo "Análisis meteorológico" y siga el asistente de configuración. Una vez que su proyecto esté listo, diríjase al panel de API y servicios para habilitar API esenciales como BigQuery, Cloud Storage y Data Studio.

Cargar conjunto de datos en BigQuery

Para nuestro análisis meteorológico, necesitaremos un rico conjunto de datos. La NOAA dispone de una gran cantidad de datos meteorológicos históricos. Descargue una parte de estos datos y diríjase a BigQuery Console. Aquí, cree un nuevo conjunto de datos llamado "weather_data". Haga clic en "Crear tabla", cargue su archivo de datos y siga las instrucciones para configurar el esquema.

Table Name: historical_weather
Schema: Date:DATE, Temperature:FLOAT, Precipitation:FLOAT, WindSpeed:FLOAT

Consultar datos y analizarlos en BigQuery

Con los datos a su disposición, es hora de descubrir ideas. La interfaz SQL de BigQuery facilita la ejecución de consultas. Por ejemplo, para encontrar la temperatura promedio a lo largo de los años:

SELECT EXTRACT(YEAR FROM Date) as Year, AVG(Temperature) as AvgTemperature
FROM `weather_data.historical_weather`
GROUP BY Year
ORDER BY Year ASC;

Esta consulta aprovecha un desglose anual de las temperaturas medias, crucial para nuestro análisis de tendencias climáticas.

Visualice información valiosa con Data Studio

La representación visual de los datos a menudo revela patrones que no se ven en números brutos. Conecte su conjunto de datos de BigQuery a Data Studio, cree un nuevo informe y comience a crear visualizaciones. Un gráfico de líneas que muestre las tendencias de temperatura a lo largo de los años sería un buen comienzo. La interfaz intuitiva de Data Studio hace que sea sencillo arrastrar, soltar y personalizar sus visualizaciones.

Comparta sus hallazgos con su equipo usando el botón "Compartir", lo que facilita que las partes interesadas accedan e interactúen con su análisis.

 
Al seguir este paso, configuró un proyecto de GCP, ingirió un conjunto de datos del mundo real, ejecutó consultas SQL para analizar datos y visualizó sus hallazgos para comprenderlos y compartirlos mejor. Este enfoque práctico no solo ayuda a comprender la mecánica de GCP sino también a obtener información útil a partir de sus datos.

El uso del aprendizaje automático (ML) puede mejorar sustancialmente su análisis de datos al proporcionar conocimientos y predicciones más profundos. En este paso, ampliaremos nuestro proyecto de "Análisis meteorológico", empleando los servicios de aprendizaje automático de GCP para predecir temperaturas futuras basadas en datos históricos. GCP ofrece dos servicios de ML principales: Cloud AutoML para quienes son nuevos en ML y AI Platform para profesionales más experimentados.

Descripción general de Cloud AutoML y AI Platform

  • Cloud AutoML: este es un servicio de aprendizaje automático totalmente administrado que facilita la capacitación de modelos personalizados con una codificación mínima. Es ideal para quienes no tienen una experiencia profunda en aprendizaje automático.
  • AI Platform: esta es una plataforma administrada para crear, entrenar e implementar modelos de ML. Es compatible con marcos populares como TensorFlow, scikit-learn y XGBoost, lo que lo hace adecuado para quienes tienen experiencia en ML.

Ejemplo práctico con AI Platform

Continuando con nuestro proyecto de análisis meteorológico, nuestro objetivo es predecir temperaturas futuras utilizando datos históricos. Inicialmente, la preparación de los datos de entrenamiento es un paso crucial. Preprocese sus datos en un formato adecuado para ML, generalmente CSV, y divídalos en conjuntos de datos de entrenamiento y prueba. Asegúrese de que los datos estén limpios, con características relevantes seleccionadas para un entrenamiento preciso del modelo. Una vez preparado, cargue los conjuntos de datos en un depósito de Cloud Storage y cree un directorio estructurado como gs://weather_analysis_data/training/ y gs://weather_analysis_data/testing/.

Entrenar un modelo es el siguiente paso importante. Navegue hasta AI Platform en GCP y cree un nuevo modelo. Opte por un modelo de regresión prediseñado, ya que predecimos un objetivo continuo: la temperatura. Apunte el modelo a sus datos de entrenamiento en Cloud Storage y establezca los parámetros necesarios para el entrenamiento. GCP se encargará automáticamente del proceso de capacitación, ajuste y evaluación, lo que simplifica el proceso de creación del modelo.

Tras una capacitación exitosa, implemente el modelo entrenado dentro de AI Platform. La implementación del modelo permite una fácil integración con otros servicios de GCP y aplicaciones externas, lo que facilita la utilización del modelo para predicciones. Asegúrese de establecer los controles de acceso y versiones adecuados para una gestión de modelos segura y organizada.

Ahora que el modelo está implementado, es hora de probar sus predicciones. Envíe solicitudes de consulta para probar las predicciones del modelo mediante GCP Console o SDK. Por ejemplo, ingrese parámetros meteorológicos históricos para un día en particular y observe la temperatura prevista, lo que le dará una idea de la precisión y el rendimiento del modelo.

Práctica con Cloud AutoML

Para un enfoque más sencillo del aprendizaje automático, Cloud AutoML ofrece una interfaz fácil de usar para entrenar modelos. Comience asegurándose de que sus datos tengan el formato y la división adecuados, luego cárguelos en Cloud Storage. Este paso refleja la preparación de datos en AI Platform, pero está dirigido a aquellos con menos experiencia en ML.

Continúe navegando hasta AutoML Tables en GCP, cree un nuevo conjunto de datos e importe sus datos desde Cloud Storage. Esta configuración es bastante intuitiva y requiere configuraciones mínimas, lo que facilita la preparación de sus datos para el entrenamiento.

Entrenar un modelo en AutoML es sencillo. Seleccione los datos de entrenamiento, especifique la columna objetivo (Temperatura) e inicie el proceso de entrenamiento. AutoML Tables se encargará automáticamente de la ingeniería de funciones, el ajuste del modelo y la evaluación, lo que le quita el trabajo pesado de encima y le permite concentrarse en comprender el resultado del modelo.

Una vez que su modelo esté entrenado, impleméntelo dentro de Cloud AutoML y pruebe su precisión predictiva utilizando la interfaz proporcionada o enviando solicitudes de consulta a través de los SDK de GCP. Este paso le da vida a su modelo y le permite hacer predicciones sobre nuevos datos.

Por último, evalúe el rendimiento de su modelo. Revise las métricas de evaluación del modelo, la matriz de confusión y la importancia de las características para comprender mejor su rendimiento. Estos conocimientos son cruciales ya que informan si es necesario realizar más ajustes, diseñar características o recopilar más datos para mejorar la precisión del modelo.

 
Al sumergirse en AI Platform y Cloud AutoML, obtendrá una comprensión práctica de cómo aprovechar el aprendizaje automático en GCP, enriqueciendo su proyecto de análisis meteorológico con capacidades predictivas. A través de estos ejemplos prácticos, se desmitifica el camino hacia la integración del aprendizaje automático en sus proyectos de datos, sentando una base sólida para exploraciones más avanzadas en el aprendizaje automático.

Una vez que su modelo de aprendizaje automático esté entrenado satisfactoriamente, el siguiente paso crucial es implementarlo en producción. Esta implementación permite que su modelo comience a recibir datos del mundo real y devolver predicciones. En este paso, exploraremos varias opciones de implementación en GCP, garantizando que sus modelos se brinden de manera eficiente y segura.

Ofrecer predicciones a través de servicios sin servidor

Los servicios sin servidor en GCP, como Cloud Functions o Cloud Run, se pueden aprovechar para implementar modelos entrenados y ofrecer predicciones en tiempo real. Estos servicios abstraen las tareas de administración de infraestructura, lo que le permite concentrarse únicamente en escribir e implementar código. Son muy adecuados para solicitudes de predicción intermitentes o de bajo volumen debido a sus capacidades de escalado automático.

Por ejemplo, implementar su modelo de predicción de temperatura a través de Cloud Functions implica empaquetar su modelo en una función y luego implementarlo en la nube. Una vez implementadas, Cloud Functions aumenta o reduce automáticamente tantas instancias como sea necesario para manejar la tasa de solicitudes entrantes.

Crear servicios de predicción

Para predicciones de gran volumen o sensibles a la latencia, empaquetar sus modelos entrenados en contenedores Docker e implementarlos en Google Kubernetes Engine (GKE) es un enfoque más adecuado. Esta configuración permite servicios de predicción escalables, que atienden una cantidad potencialmente grande de solicitudes.

Al encapsular su modelo en un contenedor, crea un entorno portátil y consistente, asegurando que se ejecutará de la misma manera independientemente de dónde se implemente el contenedor. Una vez que su contenedor esté listo, impleméntelo en GKE, que proporciona un servicio de Kubernetes administrado para organizar sus aplicaciones en contenedores de manera eficiente.

BUENAS PRÁCTICAS

La implementación de modelos en producción también implica seguir las mejores prácticas para garantizar un funcionamiento fluido y una precisión continua de sus modelos.

  • Monitorear modelos en producción: Vigile de cerca el rendimiento de su modelo a lo largo del tiempo. El monitoreo puede ayudar a detectar problemas como la deriva del modelo, que ocurre cuando las predicciones del modelo se vuelven menos precisas a medida que cambia la distribución de los datos subyacentes.
  • Vuelva a entrenar modelos periódicamente con datos nuevos: A medida que haya nuevos datos disponibles, vuelva a entrenar sus modelos para asegurarse de que continúen haciendo predicciones precisas.
  • Implementar pruebas A/B para iteraciones de modelos: Antes de reemplazar completamente un modelo existente en producción, utilice pruebas A/B para comparar el rendimiento del nuevo modelo con el anterior.
  • Manejar escenarios de fallas y reversiones: Esté preparado para fallas y tenga un plan de reversión para volver a una versión del modelo anterior si es necesario.

Optimización del costo

La optimización de costes es vital para mantener un equilibrio entre rendimiento y gastos.

  • Utilice máquinas virtuales interrumpibles y escalado automático: Para gestionar los costos, utilice máquinas virtuales interrumpibles que son significativamente más baratas que las máquinas virtuales normales. Combinar esto con el escalado automático garantiza que tendrá los recursos necesarios cuando sea necesario, sin aprovisionar demasiado.
  • Compare implementaciones sin servidor versus implementaciones en contenedores: Evalúe las diferencias de costos entre implementaciones sin servidor y en contenedores para determinar el enfoque más rentable para su caso de uso.
  • Tipos de máquinas del tamaño adecuado para modelar las necesidades de recursos: Elija tipos de máquinas que se alineen con los requisitos de recursos de su modelo para evitar gastar demasiado en recursos infrautilizados.

Consideraciones de Seguridad

Proteger su implementación es primordial para salvaguardar tanto sus modelos como los datos que procesan.

  • Comprender las mejores prácticas de IAM, autenticación y cifrado: Familiarícese con la gestión de identidad y acceso (IAM) e implemente la autenticación y el cifrado adecuados para proteger el acceso a sus modelos y datos.
  • Acceso seguro a modelos y datos de producción: Asegúrese de que solo las personas y los servicios autorizados tengan acceso a sus modelos y datos en producción.
  • Evite el acceso no autorizado a los puntos finales de predicción: Implemente controles de acceso sólidos para evitar el acceso no autorizado a sus puntos finales de predicción, protegiendo sus modelos de posibles usos indebidos.

La implementación de modelos en producción en GCP implica una combinación de consideraciones técnicas y operativas. Al adherirse a las mejores prácticas, optimizar los costos y garantizar la seguridad, usted sienta una base sólida para implementaciones exitosas de aprendizaje automático, listo para brindar valor a partir de sus modelos en aplicaciones del mundo real.

En esta guía completa, analizamos los aspectos esenciales para iniciar su viaje en Google Cloud Platform (GCP) para el aprendizaje automático y la ciencia de datos. Desde configurar una cuenta de GCP hasta implementar modelos en un entorno de producción, cada paso es un componente básico hacia la creación de aplicaciones sólidas basadas en datos. Estos son los siguientes pasos para continuar su exploración y aprendizaje sobre GCP.

  • Nivel gratuito de GCP: Aproveche el nivel gratuito de GCP para explorar y experimentar más con los servicios en la nube. El nivel gratuito brinda acceso a los productos principales de GCP y es una excelente manera de obtener experiencia práctica sin incurrir en costos adicionales.
  • Servicios avanzados de GCP: Profundice en servicios de GCP más avanzados como Pub/Sub para mensajería en tiempo real, Dataflow para procesamiento de flujos y lotes o Kubernetes Engine para orquestación de contenedores. Comprender estos servicios ampliará sus conocimientos y habilidades para gestionar proyectos de datos complejos en GCP.
  • Comunidad y documentación: La comunidad de GCP es una rica fuente de conocimiento y la documentación oficial es completa. Participe en foros, asista a reuniones de GCP y explore tutoriales para continuar aprendiendo.
  • de Padi: Considere obtener una certificación de Google Cloud, como Ingeniero de datos profesional o Ingeniero de aprendizaje automático profesional, para validar sus habilidades y mejorar sus perspectivas profesionales.
  • Colaborar en proyectos: Colaborar en proyectos con pares o contribuir a proyectos de código abierto que utilizan GCP. La colaboración en el mundo real proporciona una perspectiva diferente y mejora sus habilidades para resolver problemas.

El ámbito tecnológico, especialmente la computación en la nube y el aprendizaje automático, evoluciona continuamente. Mantenerse actualizado con los últimos avances, interactuar con la comunidad y trabajar en proyectos prácticos son formas excelentes de seguir perfeccionando sus habilidades. Además, reflexione sobre los proyectos completados, aprenda de los desafíos enfrentados y aplique esos aprendizajes a proyectos futuros. Cada proyecto es una oportunidad de aprendizaje y la mejora continua es la clave del éxito en su viaje hacia la ciencia de datos y el aprendizaje automático en GCP.

Al seguir esta guía, habrás sentado una base sólida para tus aventuras en Google Cloud Platform. El camino por delante está lleno de aprendizaje, exploración y amplias oportunidades para generar impactos significativos con sus proyectos de datos.

 
 
Mateo Mayo (@mattmayo13) tiene una maestría en informática y un diploma de posgrado en minería de datos. Como editor en jefe de KDnuggets, Matthew tiene como objetivo hacer accesibles conceptos complejos de ciencia de datos. Sus intereses profesionales incluyen el procesamiento del lenguaje natural, los algoritmos de aprendizaje automático y la exploración de la IA emergente. Lo impulsa la misión de democratizar el conocimiento en la comunidad de ciencia de datos. Matthew ha estado codificando desde que tenía 6 años.
 

punto_img

Información más reciente

punto_img