Logotipo de Zephyrnet

Curso gratuito de ingeniería de datos para principiantes – KDnuggets

Fecha:

Curso gratuito de ingeniería de datos para principiantes
Imagen por conjunto de historias en Freepik
 

Es un buen momento para entrar en la ingeniería de datos. Entonces, ¿por dónde empiezas? 

Aprender ingeniería de datos a veces puede resultar abrumador debido a la cantidad de herramientas que necesitas conocer, ¡sin mencionar las descripciones de trabajo súper intimidantes! 

Entonces, si está buscando una introducción a la ingeniería de datos para principiantes, este programa gratuito Curso de ingeniería de datos para principiantes, impartido por Justin Chau, un defensor de los desarrolladores de Airbyte, es un buen punto de partida.

En aproximadamente tres horas aprenderá habilidades esenciales de ingeniería de datos: Docker, SQL, ingeniería analítica y más. Entonces, si desea explorar la ingeniería de datos y ver si es para usted, este curso es una excelente introducción. Ahora repasemos lo que cubre el curso.

Enlace al curso: Curso de ingeniería de datos para principiantes

Este curso comienza con una introducción sobre por qué debería considerar convertirse en ingeniero de datos en primer lugar. Lo cual creo que es muy útil de entender antes de sumergirse directamente en los temas técnicos.

El instructor, Justin Chau, habla de: 

  • La necesidad de datos e infraestructura de datos de buena calidad para garantizar el éxito de los proyectos de big data 
  • Cómo los roles de ingeniería de datos están creciendo en demanda y bien remunerados 
  • El valor comercial que puede agregar a la organización trabajando como ingeniero de datos facilitando la infraestructura de datos de la organización.

Cuando aprendes ingeniería de datos, Docker es una de las primeras herramientas que puedes agregar a tu caja de herramientas. Docker es una popular herramienta de creación de contenedores que le permite empaquetar aplicaciones (con dependencias y configuración) en un único artefacto llamado imagen. De esta manera, Docker le permite crear un entorno consistente y reproducible para ejecutar todas sus aplicaciones dentro de un contenedor.

El módulo Docker de este curso comienza con conceptos básicos como:

  • archivos Docker
  • Imágenes de Docker 
  • Contenedores Docker 

Luego, el instructor pasa a cubrir cómo contener una aplicación con Docker: ejecutando la creación de Dockerfile y los comandos para poner su contenedor en funcionamiento. Esta sección también cubre volúmenes persistentes, los fundamentos de las redes Docker y el uso de Docker-Compose para administrar múltiples contenedores.

En general, este módulo en sí mismo es un buen curso intensivo sobre Docker si eres nuevo en la contenedorización.

En el siguiente módulo sobre SQL, aprenderá cómo ejecutar Postgres en contenedores Docker y luego aprenderá los conceptos básicos de SQL creando una base de datos de Postgres de muestra y realizando las siguientes operaciones:

  • Operaciones CRUD 
  • Funciones agregadas 
  • Uso de alias
  • Une 
  • Unión y unión todos 
  • subconsultas

Con los fundamentos de Docker y SQL, ahora puede aprender a crear una canalización de datos desde cero. Comenzará construyendo un proceso ELT simple que podrá mejorar durante el resto del curso. 

Además, verá cómo todos los conceptos de SQL, redes Docker y composición de Docker que ha aprendido hasta ahora se combinan para crear esta canalización que ejecuta Postgres en Docker tanto para el origen como para el destino.

Luego, el curso pasa a la parte de ingeniería analítica donde aprenderá sobre dbt (herramienta de creación de datos) para organizar sus consultas SQL como modelos de transformación de datos personalizados. 

El instructor le ayudará a empezar a utilizar dbt: instalar el adaptador y dbt-core necesarios y configurar el proyecto. Este módulo se centra específicamente en trabajar con modelos, macros y jinjas dbt. Aprenderás cómo:

  • Defina modelos dbt personalizados y ejecútelos sobre los datos en la base de datos de destino
  • Organice consultas SQL como macros dbt para su reutilización 
  • Utilice dbt jinjas para agregar estructuras de control a consultas SQL

Hasta ahora, ha creado una canalización ELT que se ejecuta mediante activación manual. Pero ciertamente necesita algo de automatización, y la forma más sencilla de hacerlo es definir un trabajo cron que se ejecute automáticamente a una hora específica del día. 

Entonces, esta sección súper breve cubre los trabajos cron. Pero las herramientas de orquestación de datos como Airflow (que aprenderá en el siguiente módulo) le brindan más granularidad sobre el proceso. 

Para orquestar canalizaciones de datos, utilizará herramientas de código abierto como Airflow, Prefect, Dagster y similares. En esta sección aprenderá a utilizar la herramienta de orquestación de código abierto Airflow.

Esta sección es más extensa en comparación con las secciones anteriores porque cubre todo lo que necesita saber para ponerse al día y escribir DAG de Airflow para el proyecto actual.

Aprenderá cómo configurar el servidor web Airflow y el programador para programar trabajos. Luego aprenderá sobre los operadores de Airflow: operadores de Python y Bash. Finalmente, definirá las tareas que se incluyen en los DAG para el ejemplo que nos ocupa.

En el último módulo, aprenderá sobre Airbyte, una plataforma de integración/movimiento de datos de código abierto que le permite conectar más fuentes y destinos de datos con facilidad.

Aprenderá cómo configurar su entorno y verá cómo puede simplificar el proceso ELT usando Airbyte. Para hacerlo, modificará los componentes del proyecto existente: script ELT y DAG para integrar Airbyte en el flujo de trabajo.

Espero que esta revisión del curso gratuito de ingeniería de datos le haya resultado útil. Disfruté el curso, especialmente el enfoque práctico para construir y mejorar gradualmente un canal de datos, en lugar de centrarme únicamente en la teoría. El código también está disponible para que lo sigas. Entonces, ¡feliz ingeniería de datos!
 
 

Bala Priya C. es un desarrollador y escritor técnico de la India. Le gusta trabajar en la intersección de matemáticas, programación, ciencia de datos y creación de contenido. Sus áreas de interés y experiencia incluyen DevOps, ciencia de datos y procesamiento de lenguaje natural. ¡Le gusta leer, escribir, codificar y tomar café! Actualmente, está trabajando para aprender y compartir su conocimiento con la comunidad de desarrolladores mediante la creación de tutoriales, guías prácticas, artículos de opinión y más.

punto_img

Información más reciente

punto_img