Logotipo de Zephyrnet

5 proyectos de ciencia de datos para aprender 5 habilidades críticas de ciencia de datos

Fecha:

5 proyectos de ciencia de datos para aprender 5 habilidades críticas de ciencia de datos
 

Si está tratando de ingresar a la industria de la ciencia de datos, puede ser excelente obtener algunos proyectos en su haber. Hacer proyectos de ciencia de datos lo ayuda a desarrollar las habilidades que necesitará para trabajar como científico de datos. También tendrá un producto que puede poner en su currículum y discutir durante las entrevistas, lo cual es fundamental para demostrar que sabe lo que está haciendo.

El ciclo de desarrollo de la ciencia de datos es el patrón principal de cualquier proyecto de ciencia de datos, ya sea para una empresa o para su propio proyecto personal. Deberá sentirse cómodo con la recopilación, limpieza, modelado y visualización de datos para ser un científico de datos competente. . La pila de herramientas específica que usa en su futuro trabajo de ciencia de datos puede variar de las herramientas que recomiendo a continuación, pero como cualquier cosa en el mundo de la informática, se trata más de aprender a pensar que la sintaxis específica o las características de una herramienta sobre otra. Después de todo, si puede crear visualizaciones de datos con Tableau, podrá aprender a hacerlo con Power BI bastante rápido, ya que ya está familiarizado con el proceso general para visualizar datos.

Familiarizarse con todo el ciclo de desarrollo de la ciencia de datos a la vez puede ser abrumador. Cada paso del ciclo requiere varias habilidades, y desarrollar todas las habilidades del científico de datos pues todos los pasos a la vez serán un proceso frustrante y probablemente infructuoso. En lugar de titubear para tratar de hacerlos todos a la vez, ayúdese a estructurar su viaje de aprendizaje.

El principal obstáculo al que te enfrentarás es la motivación. Mi método preferido para mantener y alimentar mi motivación es elegir un tema o producto cuando trato de expandir mis habilidades a una nueva área. Trate de pensar en un producto real (independientemente de lo inútil o no comercializable que parezca) y avance por el ciclo con esa idea.

Sigue tus pasiones y aprovecha esta oportunidad para encontrar la sección transversal entre por qué quieres entrar en la ciencia de datos y el resto de tu vida. Si le gusta correr, puede encontrar un conjunto de datos de tiempos de carrera y planes de entrenamiento seguidos para ver qué planes de entrenamiento conducen a la mayor cantidad de mejora. Tal vez te guste la repostería y quieras averiguar la popularidad de diferentes platos entre los panaderos caseros analizando las frecuencias de palabras clave de los motores de búsqueda.

Aquí hay un resumen de cinco mini proyectos de ciencia de datos que puede hacer. Cada uno le enseñará una habilidad que deberá mostrar en su currículum.

 
Al igual que cuando comienza a cocinar una comida, primero debe asegurarse de haber reunido todos los ingredientes que necesitará. El primer paso para producir cualquier tipo de información es obtener datos. Encontrar los datos relevantes para su proyecto de análisis de datos, ya sea un proyecto personal o laboral, es un gran desafío.

API

 
Debes sentirte cómodo trabajando con API. Piense en una API como un acuerdo formalizado entre dos programas, como la interfaz de un sitio web y el servidor y la base de datos que almacenan y procesan los datos. La API se publicaría en el front-end y back-end para estructurar la comunicación entre ellos. Las API REST son muy populares y se utilizan para consultar un servicio web en busca de datos. Puede usar API similares a la API de Google Trends para recopilar datos.

Importación de Big Data desde una base de datos

 
Deberá crear una base de datos en un servicio en la nube (AWS, Azure o Google Cloud) y conectarse a ella. Todos los grandes proveedores de soluciones en la nube tienen amplios niveles gratuitos que son perfectos para que un científico de datos aficionado pruebe las cosas. Dado que muchos consumidores, estudiantes y empresas utilizan estos productos de renombre, hay un montón de contenido útil que cubre sus niveles gratuitos, incluida una amplia documentación y una gran cantidad de preguntas sobre el desbordamiento de pila. Los servicios en la nube se están convirtiendo en una parte central de la ciencia de datos moderna, por lo que es excelente que los conozca ahora.

Elija un producto y cree una base de datos. Amazon y Google ambos tienen una excelente documentación para trabajar con sus bases de datos de nivel gratuito. La importación es bastante sencilla, proceso bien documentado. Google incluso proporciona un lista de consejos y trucos para la mejor estrategia de importación de datos, como comprimir datos para reducir costos.

Abastecimiento de sus datos

 
Hay muchas fuentes de datos de código abierto para proyectos personales. Asegúrese de evitar conjuntos de datos que hayan sido exagerados, como el conjunto de datos de iris. Desea que su proyecto destaque en su currículum. Reuní algunas de mis fuentes de datos favoritas, una que es peculiar, uno que se centra más en la cultura pop, y una tercera que contiene cosas mas serias como datos demográficos y de salud.

 
5 proyectos de ciencia de datos para aprender 5 habilidades críticas de ciencia de datos
 

Limpiar datos significa que están sucios en primer lugar. Nunca he conocido un conjunto de datos realmente limpio en la naturaleza, y probablemente tú tampoco. La limpieza de datos es una parte integral de la ciencia de datos, ya que los datos sucios conducen a hallazgos inexactos. Los datos sucios pueden contener duplicados, estar desactualizados, ser incorrectos, incompletos o inconsistentes. Deberá aprender a mitigar todos estos problemas.
Según Tableau, la cinco pasos para la limpieza de datos implica eliminar duplicados, corregir problemas estructurales, filtrar valores atípicos no deseados, manejar datos faltantes y validar la calidad de su conjunto de datos limpio resultante.

Cómo limpiar datos sucios

 
Recuerda que no buscamos la perfección; solo vamos por lo suficientemente bueno. Encuentre un equilibrio entre el esfuerzo máximo y un conjunto de datos potencialmente corregido en exceso y holgazaneando en el proceso de limpieza de datos.
Tendencias y aplicaciones de bases de datos tiene un gran guía para guiarlo a través del proceso de limpieza de datos. Lo más importante que debe recordar es documentar cada cambio que realice en el proceso de limpieza de sus datos. Cuando se trata de datos incompletos, por ejemplo, tendrá que hacer algunas suposiciones y luego tomar decisiones basadas en las suposiciones. Si no ha registrado sus suposiciones, así como su lógica de reemplazo o eliminación, se perderá la posibilidad de volver a introducir estos datos si obtiene más información o comprensión.

Si desea algunos ejemplos específicos de datos sucios, Foresight BI ha elaborado ejercicios para diferentes tipos de datos sucios. Elija los cinco ejercicios que le parezcan más desafiantes y pruébelos. Tienen algo de estructura y buenos ejemplos de resúmenes de cómo podrían verse los datos.

 
Fuera del análisis estadístico básico, el aprendizaje automático es una parte central de la ciencia de datos. Siéntase cómodo desarrollando, manteniendo e implementando modelos de aprendizaje automático para llevar su carrera de ciencia de datos al siguiente nivel.

Construcción de modelos de aprendizaje automático

 
Amazon tiene un tutorial de aprendizaje automático para guiarlo a través de la creación, capacitación e implementación de un modelo de aprendizaje automático utilizando sus servicios de SageMaker. Esta es una excelente opción si es completamente nuevo en la ciencia de datos o el aprendizaje automático, ya que lo tomará de la mano todo el tiempo, pero aún estará expuesto a todo el proceso. Si no ha creado, entrenado e implementado un modelo por su cuenta antes, yo seguiría la guía de Amazon.

Construcción

 
Sin embargo, si tienes más experiencia, no tomes el camino más fácil. Cree su modelo como lo haría normalmente, teniendo cuidado de dividir los datos en datos de prueba y de entrenamiento. Elija el modelo adecuado según el tipo de datos que tenga y el tipo de predicción que desee realizar (supervisado para datos etiquetados, no supervisado para datos no etiquetados, etc.).

Entrenar

 
Chris Rawles armó un hermoso y detallado guía sobre cómo configurar su modelo para entrenar en la nube. Usaron Google Cloud, pero los principios que recomienda son válidos independientemente del proveedor de nube que elija.

Despliegue

 
Servicio Lamda de AWS es excelente para implementar su código y dejar que se ejecute. El modelo de precios es un pago por solicitud, por lo que puede ser bastante rentable si solo lo usa para practicar la implementación y tal vez mostrárselo a algunos entrevistadores.

Construcción de modelos de regresión

 
Los modelos de regresión funcionan mejor si el resultado que busca predecir es binario. Aunque un modelo de regresión es más simple que una red neuronal o un algoritmo de agrupación, debe entrenarlo e implementarlo como lo haría con otros modelos de aprendizaje automático.

Si se siente fuera de su alcance con el aprendizaje automático y la lista interminable de herramientas utilizadas para la ciencia de datos, intente comenzar con un ejercicio digerible. Puede construir un modelo de regresión simple pero efectivo en Excel. No es nada lujoso, y hacer esto no conseguirte un trabajo de ciencia de datos, pero es un gran paso de bebé para los científicos de datos principiantes.

 
5 proyectos de ciencia de datos para aprender 5 habilidades críticas de ciencia de datos
 
Una vez que haya hecho todo el trabajo pesado de encontrar datos, limpiarlos, desarrollar un modelo y producir predicciones o conocimientos, ¡es hora de mostrar su trabajo! Saber qué tipo de visualización elegir es vital, ya que necesita comunicar sus hallazgos de una manera simple pero efectiva. Intente presentar sus hallazgos a amigos y familiares usando diferentes visualizaciones y descubra cuáles funcionan mejor para ciertos escenarios.

Cuadro

 
Tableau se ha vuelto bastante famoso por sus visualizaciones llamativas y atractivas. Pavleenk Kaur ha elaborado un recorrido por el visualizaciones más comunes utilizadas en Tableau. Lo guía a través de cómo conectar sus datos y lo ayuda a comprender la interfaz de la herramienta describiendo los significados de los colores de las diferentes opciones y describiendo los pros y los contras de las diferentes visualizaciones.

Otras herramientas de BI

 
Power BI de Microsoft es ideal para tableros, generar informes y mostrar su análisis predictivo. Es excelente para actuar como un sistema centralizado de informes de datos. Con más de 200 XNUMX organizaciones usándola en todo el mundo, es una excelente herramienta con la que debe familiarizarse cuando solicita trabajos de ciencia de datos. Mira esto lista superior de herramientas de visualización de datos para científicos de datos.

 
Los motores de recomendación son un gran ejemplo de ciencia de datos en la práctica. Si un cliente compró una tienda de campaña, probablemente querrá comprar sacos de dormir, faros y una estufa de campamento, ¿verdad? Los motores de recomendación se basan en la idea de una matriz de coocurrencia, que representa el número de veces que aparece cada valor de fila en el mismo contexto que cada valor de columna.

La implementación de un motor de recomendaciones es el proyecto final en su camino hacia el desarrollo de todas las habilidades de un científico de datos. Esta área de la ciencia de datos se superpone mucho con las habilidades y responsabilidades de un desarrollador de software, como usar Django para crear aplicaciones en línea. Puede implementar aplicaciones como las producidas con Django u otros marcos en la nube (AWS, Azure o Google Cloud). Estos servicios en la nube pueden proporcionarle servidores y bases de datos, los cuales necesitará para implementar su aplicación y mantenerla en funcionamiento.

Al igual que un libro que nunca se publica, un modelo de ciencia de datos que nunca llega al punto en que consume datos y genera predicciones en vivo o ajusta su análisis vale mucho menos. La implementación y el mantenimiento siempre deben ser su objetivo final. Aprender esto ahora mediante la creación de un motor de recomendaciones lo ayudará a maximizar el impacto comercial y el rendimiento percibido en su próximo trabajo de ciencia de datos.

 
Es importante que comprenda los componentes básicos que componen el ciclo de desarrollo de la ciencia de datos. Recomiendo ampliar esa comprensión para incluir soluciones en la nube. Un modelo de ciencia de datos solo es útil si puede hacer predicciones en vivo, continúa consumiendo datos para actualizar el modelo y pone todos estos conocimientos a disposición de sus partes interesadas.

Ya sea que esté tratando de iniciar su propio empresa de ciencia de datos o desea trabajar como científico de datos en un gigante tecnológico, deberá sentirse cómodo ejecutando las tareas de un científico de datos en un entorno de nube. Con todos los niveles gratuitos de los proveedores de soluciones en la nube, no hay excusa para no probar estas herramientas ahora. Si es un principiante y quiere conseguir su primer trabajo en ciencia de datos o análisis de datos, estos 19 ideas de proyectos de ciencia de datos puedo ayudarte. Elija uno o todos ellos, lo que le parezca más divertido.

 
 
Nate Rosidi es científico de datos y en estrategia de producto. También es profesor adjunto de enseñanza de análisis y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas de entrevistas reales de las principales empresas. Conéctate con él en Gorjeo: StrataScratch or Etiqueta LinkedIn.
 

punto_img

Información más reciente

punto_img