Logotipo de Zephyrnet

Plan de estudios de ciencia de datos para profesionales

Fecha:

Plan de estudios de ciencia de datos para profesionales

Si está buscando expandir o hacer la transición de su carrera profesional actual que está enterrada en el análisis de hojas de cálculo en una impulsada por la ciencia de datos, entonces se encuentra en un viaje emocionante pero complejo con mucho que explorar y dominar. Para comenzar su aventura, siga esta completa hoja de ruta que lo guiará desde un gnomo en el bosque de hojas de cálculo hasta un asistente de inteligencia artificial conocido en todo el reino.


By brock taute, Datos y sistemas en Odyssey Energy Solutions.

Figura del autor.

Si finalmente ha decidido tomar el camino de Excel-copy-and-paste a una ciencia de datos reproducible, entonces necesitará saber cuál es la mejor ruta a seguir. La buena noticia es que hay una gran cantidad de recursos gratuitos para llevarlo allí y comunidades en línea increíbles para ayudarlo en el camino. La mala noticia es que puede resultar abrumador elegir qué recursos aprovechar. Esta es una guía sensata que puede seguir sin arrepentirse, para que pueda pasar menos tiempo preocupándose por el sendero y más tiempo recorriéndolo. Se basa en las lecciones que aprendí cuando pasé de ser un ingeniero de proyectos de energía renovable que nunca había tomado una clase de estadística al director de una plataforma de datos importante.

ESTÁS AQUÍ

En el comienzo de este viaje, puede encontrar un ejército de personas capacitadas que realizan análisis de datos por necesidad, no por pasión. Fueron capacitados para ser ingenieros y analistas de negocios, quienes eligieron el software más fácil posible para ejecutar sus ecuaciones. Las hojas de cálculo son hermosas porque son muy visuales. Puede ver literalmente y sentir metafóricamente los números a través de cada paso de las ecuaciones. La creación de una hoja de cálculo maestra es un proceso íntimo. (¿No me cree? Intente criticar el esquema de color de alguien cuando le muestre su nueva plantilla). Sin embargo, las hojas de cálculo alcanzan limitaciones rápidamente una vez que pasa del prototipo al análisis de datos a gran escala. Una vez que encuentre una referencia circular que requiere un día completo para arreglar, comience a planificar sus descansos para ir al baño cuando necesite abrir archivos grandes o pasar una semana tratando de recrear un análisis que otra persona completó, es hora de seguir adelante. Con los primeros pasos de su viaje, desea eliminar los pasos manuales de sus hojas de cálculo, acelerarlos y hacer que las fórmulas sean más fáciles de rastrear. Quieres empezar a programar.

FIRST TREK: Elegir un lenguaje de programación

Ahora se enfrenta a la decisión más importante de su vida. La mayoría de los científicos de datos con aspiraciones nunca superan este enorme obstáculo. ¿Qué lenguaje de programación vas a aprender primero? Para evitarle un poco de ansiedad, debe saber que realmente no hay respuestas incorrectas; es como elegir entre un cachorro y un auto nuevo (o un gato y una motocicleta para algunos de ustedes). Si bien hay muchos lenguajes de programación para elegir, solo hay dos que recomendaría en este punto del camino: Python y R.

Podría pasar meses leyendo artículos sobre cuál es mejor, pero todos terminan diciendo lo mismo. Entonces, ahórrese un poco de carga y permita que esta sea la última vez que se detenga en este tema. Esta guía es sensata, ¿recuerdas? Te lo dispararé directamente.

Si va a colaborar con alguien y ya tomó esta decisión, elija el mismo idioma. La vida es más fácil de esa manera. Suponiendo que está abriendo este camino para su equipo (lo cual es increíble), probablemente le recomiendo que elija R. El lenguaje fue diseñado específicamente para facilitar la vida de los programadores que no son computadoras, y la comunidad de aprendizaje es increíble. Más importante aún, RStudio IDE (Integrated Development Environment; un lugar donde editará su código) hace que comenzar sea mucho más fácil que si usa Python. (Se sentirá como usar Matlab, para cualquiera que lo haya usado en la universidad). Dicho todo esto, Python es el lenguaje más popular para los ingenieros de software y se usa un poco más en el "mundo real" cuando comienzas a construir aplicaciones de aprendizaje automático.

Yo personalmente comencé a enseñarme Python por mi cuenta para propósitos normales de programación de computadoras y me quedé atrapado en muchas cosas frustrantes (como la maldita variable PATH), lo que hizo que el progreso fuera lento al principio. Cuando comencé a aprender ciencia de datos, cambié a R y realmente disfruté de la experiencia. Más recientemente, indagué en los paquetes de ciencia de datos para Python y ahora alterné entre los dos con frecuencia (algo que es sorprendentemente fácil).

Si quieres darle un poco más de justicia a este tema, debes leer este artículo que se sumerge en más detalles. Entonces, debes elegir uno y empezar.

SEGUNDO RECORRIDO: Estadísticas básicas y datos ordenados

Una vez que haya elegido un idioma, debe elegir el IDE y el material de aprendizaje. Si eligió R, use RStudio y lea “R para ciencia de datos” (a menudo abreviado R4DS) por Garrett Grolemund y Hadley Wickham. Si eligió Python, descargue JupyterLab (usando Anaconda) y lea el “Manual de ciencia de datos de Python” de Jake VanderPlas. Ambos libros están disponibles en línea de forma gratuita.

Cualquiera de los dos libros lo llevará de ser un novato a tener capacidades más allá de la hoja de cálculo, lo que le permitirá abordar una amplia gama de proyectos. Así que hazlo. Tome un proceso de análisis de datos que realmente lo frustró (tal vez tuvo que copiar datos de un montón de CSV en una plantilla, tal vez fue un proceso que requirió un montón de hojas de cálculo y copiar / pegar datos entre ellos, etc.) y escriba un script de R / Python para que lo haga por usted. Cuando se encuentre con obstáculos, comuníquese con la comunidad para obtener apoyo.

El mayor paso que me impulsó hacia adelante fue comprender el concepto de datos ordenados. Por esa razón, recomiendo leer el artículo "Tidy Data" de Hadley Wickham y poner sus principios en práctica en su código.

Además, de lejos, la parte más divertida de realizar un análisis de datos es crear visualizaciones impresionantes. Asegúrate de pasar mucho tiempo jugando con tus tramas. Así es como impresionará a otras personas para que vean que su código es mejor que sus hojas de cálculo.

Por último, dado que ahora está realizando un análisis de datos más profundo, puede ser beneficioso revisar los principios de las estadísticas de empresas. Recomiendo “El arte de la estadística” de David Spiegelhalter. Es un libro que no es un libro de texto que recorre la mentalidad detrás de las matemáticas de las estadísticas, que es más aplicable para alguien que codifica que una inmersión profunda en las matemáticas en sí.

PRIMER DESTINO

¡Lo hiciste! Con estos sencillos pasos, ahora puede llamarse analista de datos. En este momento, ahora puede hacer todo lo que podría hacer en Excel, y algo más. El análisis de datos ahora es considerablemente más rápido, automatiza las cosas aburridas y se divierte mucho más haciendo gráficos. Para muchos, esto es todo lo que querían llegar. Sin embargo, los siguientes pasos se verán tremendamente tentadores. Si antes pensaba que se estaba divirtiendo, espere hasta que cree su primer tablero.

TERCER TREK: Dashboards

Echa un vistazo a la Galería Shiny R (https://shiny.rstudio.com/gallery/). O para los Pythonistas, mire la Galería de aplicaciones Dash Enterprise (https://dash-gallery.plotly.host/Portal/). Estos son paneles de control, un lugar donde puede combinar todos los resultados de sus análisis de datos en una sola ubicación para que los líderes de su negocio puedan asombrar por el trabajo que realiza y tomar decisiones informadas basadas en datos. (Un eslogan bastante agradable, ¿verdad?) Yendo un paso más allá, los paneles pueden ser aplicaciones web que permiten a otros miembros de su equipo ejecutar su código a través de una GUI (Interfaz gráfica de usuario). ¿Existe algún software que su equipo use actualmente pero que lo vuelve loco? Puede recrearlo, pero hecho a medida para hacer exactamente lo que desea y nada más, reduciendo seriamente la cantidad de clics que realiza. Y el resultado de este programa podría ser un hermoso informe en PDF.

En pocas palabras, los paneles de control son una droga. Quieres dominar la fabricación de estos. Comience tomando uno de sus análisis y convirtiendo sus resultados en un tablero, y luego continúe a partir de ahí. Utilice el paquete Shiny para R y el paquete Dash para Python. Hay mucha documentación para ayudarlo, incluido el libro “Mastering Shiny” de Hadley Wickham, pero a diferencia de los libros de ciencia de datos básicos, no recomiendo necesariamente trabajar hasta el final. Simplemente obtenga codificación y utilícelos para ayudarlo cuando no esté seguro de cómo hacer algo. Una vez más, la comunidad de aprendizaje es su amiga.

CUARTO TREK: Paquetes, GitHub, código abierto, entornos

Ahora que sus colegas están desmayados por sus paneles y envidiosos de sus scripts automatizados, deberá comenzar a colaborar. Al principio, probablemente compartirá su código con alguien para que lo ejecute en su computadora a través del correo electrónico o el intercambio de archivos. De manera similar, con cada nuevo análisis que inicie, es probable que copie su último análisis y comience a cambiar partes aquí y allá para transformarlo en los nuevos datos. Así es como todo el mundo empieza, pero rápidamente se complica. Además, le gustaría una mejor manera de realizar un seguimiento de los cambios en el código y permitir que otras personas lo editen conjuntamente. Para manejar todo esto, querrá convertir su código en un paquete, que aloja en GitHub. Entonces, todos tienen acceso al código, e incluso puedes hacerlo de código abierto, lo que te permite colaborar con el mundo.

Los mejores recursos para aprender a hacer esto son los "Paquetes R" de Hadley Wickham y la documentación oficial de Python Packaging (https://packaging.python.org/overview/). Las guías de GitHub también son excelentes recursos para aprender a usar su plataforma (https://guides.github.com/).

La primera vez que crea una aplicación para su equipo, la gestión de entornos locales le provocará mucha frustración. Con esto, quiero decir que las computadoras de todos tendrán diferentes archivos instalados y matices dentro de sus sistemas operativos que obligan al código que se ejecuta en su "entorno" a comportarse de manera diferente al suyo. Es algo muy complicado de entender y pesado en la ciencia de la computación en lugar de la ciencia de datos básica. Evité aprender sobre la gestión del medio ambiente tanto tiempo como pude, pero una vez que lo hice, me hizo la vida mucho más fácil. Ya sea de forma proactiva o por necesidad, deberá aprender esto usted mismo. Nunca encontré un gran recurso para aprender sobre esto, así que hice uno esta página que te recomiendo leer.

SEGUNDO DESTINO

Ahora ha llevado sus habilidades de análisis de datos al siguiente nivel. Puede contribuir al código de fuente abierta y ahora tiene las habilidades necesarias para solucionar los problemas de sus colegas. Puede liderar un equipo de analistas de datos eficaces. Con todo este poder, está buscando formas de impulsar realmente el valor comercial, por lo que la alta dirección ya no puede ignorar su trabajo.

QUINTO TREK: Estadísticas avanzadas y aprendizaje automático

Si realmente desea comenzar a generar valor para su empresa, debe ir más allá de la regresión lineal simple y el cálculo de promedios. Debe comenzar a profundizar en estadísticas avanzadas y (¡alerta de palabras de moda!) Aprendizaje automático. Esta caminata es una de las más empinadas. Es posible probar ciegamente modelos de aprendizaje automático de código abierto, pero eso es un poco como jugar con fuego. Realmente debería comprender lo que está haciendo, o de lo contrario la computadora intentará subvertir sus motivos en algo maniático. No estoy diciendo que tengas que entender todas las matemáticas de cada modelo, pero debes sentirte cómodo con lo que las matemáticas están tratando de lograr. También desea comenzar a obtener inferencias más grandes a partir de sus datos, reconociendo patrones que se perdieron con el ojo inexperto. Debe aprender aún más sobre los matices de las estadísticas para asegurarse de llegar a conclusiones de manera responsable. Esta es realmente la sección sobre el gran poder que requiere una gran responsabilidad. Aprenda bien estas herramientas y podrá hacerlo bien.

El mejor recurso de aprendizaje automático que existe es el curso de aprendizaje automático en Coursera, impartido por el profesor de Stanford y la celebridad del aprendizaje automático, Andrew Ng. Puede encontrar las asignaciones de tareas en Python y R en lugar de Octave (el lenguaje de programación que usa en su curso) alojado en GitHub. Otro curso fantástico para seguir es la clase MIT Intro To Deep Learning (6.S191). Es un curso del MIT que se pone a disposición del público cada año después de su finalización. Este curso usa Python y un paquete llamado TensorFlow. (Tenga en cuenta que el aprendizaje profundo es un tipo de aprendizaje automático, que es un tipo de inteligencia artificial. Lo que diga es en parte una cuestión de a quién desea impresionar).

Un gran curso de estadística de nivel superior en Coursera es "Inferencia estadística" (usa R) de Johns Hopkins o "Análisis estadístico inferencial con Python" de Michigan.

SEXTO TREK: Cloud Computing, Data Pipelines

En algún momento, alojar localmente todos sus procesos ya no tiene sentido. Esto podría deberse a la cantidad de potencia informática necesaria, la necesidad de agregar datos de muchas fuentes en una ubicación, o la necesidad de una aplicación que se ejecute continuamente y no un análisis único. Cuando este sea el caso, recurrirá a la computación en la nube, lo que significa que debe encontrar una manera de llevar los datos a esa nube también. En este punto, es probable que esté pasando de analista / científico de datos a ingeniero de datos. Hay mucho en esto, y la mayor parte es específico del proveedor de alojamiento en la nube. Para evitar esta ruta, puede usar algo como RStudio Cloud, que hará todas las cosas complicadas por usted. De lo contrario, deberá repasar muchos conceptos de informática, como particiones, replicaciones y redes.

Para una introducción más profunda a los servicios en la nube, escribí este artículo. Algunos otros recursos útiles son Google Cloud Labs (o material similar para Amazon, Microsoft, etc.) y el libro "Designing Data Intensive Applications" de Martin Kleppmann.

Para cualquiera que busque utilizar el poder de procesamiento de la nube pero que no busque alojar una aplicación, definitivamente debería consultar Google Colab Notebooks. Estos le permiten ejecutar portátiles Jupyter en la nube en lugar de en su propia computadora sin ninguna configuración elegante. Es ideal para compartir código sin tener que lidiar también con problemas ambientales locales.

TERCER DESTINO

Llegas a la meca de la ciencia de datos. Algunos títulos que puede solicitar son Científico de datos de producción o Ingeniero de aprendizaje automático. Ahora tiene el conjunto de habilidades necesarias para trabajar para Big Tech, pero tiene la experiencia en la materia en su industria que lo distingue de los científicos de datos estándar, lo que hace que sus talentos sean bastante atractivos. Use esto para aportar valor claramente a su empresa, de modo que pueda ser apreciado por lo que vale.

EL MÁS ALLÁ

Hay un número infinito de caminos que podría tomar a continuación. Puede profundizar en las redes neuronales y las bibliotecas de inteligencia artificial de código abierto para llevar el mundo de la inteligencia artificial a su industria. O puede incorporarse a la codificación front-end, aprender javascript, HTML y CSS, para llevar las aplicaciones web que ha comenzado a crear al siguiente nivel. O puede dominar la infografía de datos y el diseño para comunicar mejor los resultados de sus análisis. O podrías hacer un millón de otras cosas. Debido a que ya aprendió a hacer ciencia de datos en la nube, el cielo ya no es su límite.

Original. Publicado de nuevo con permiso.

Bio: brock taute es un ingeniero y científico de datos que trabaja en la industria de las energías renovables.

Relacionado:

Coinsmart. Mejor Bitcoin-Börse en Europa
Fuente: https://www.kdnuggets.com/2021/03/data-science-curriculum-professionals.html

punto_img

Información más reciente

punto_img