Logotipo de Zephyrnet

Ciencia de datos: de algoritmos a producción

Fecha:

Casi todas las empresas tienen un equipo de ciencia de datos. Como líder del equipo, es su responsabilidad hacer que el equipo sea efectivo, es decir, enviar cosas nuevas que agreguen valor comercial a la producción y seguir mejorando con el tiempo.

Tener algoritmos de ciencia de datos en producción es el objetivo final. Sin embargo, llegar a la producción no sucede por sí solo. Es completamente posible tener una situación en la que un equipo de personas talentosas esté trabajando duro en algoritmos matemáticamente complejos en los cuadernos Jupyter que nunca logran llegar al producto terminado.

Este artículo cubrirá las mejores prácticas para superar los obstáculos de liderar la producción de un equipo de ciencia de datos. Es decir, asegurarse de trabajar en los problemas correctos, construir un sistema robusto de procesamiento de datos y abogar por su equipo dentro de la organización.

Trabajando en los problemas correctos, incrementalmente

Digamos que su equipo tiene la tarea de crear recomendaciones de productos para una tienda en línea que vende equipos deportivos. Nunca antes habían mostrado recomendaciones de productos en el sitio web. Sus científicos de datos están entusiasmados con la implementación del último algoritmo de filtrado colaborativo sobre el que han estado leyendo y desean su aporte. Que deberias decir

En este caso, tiene sentido redirigir el entusiasmo de los miembros de su equipo de "lo que es académicamente más interesante de implementar" a "cómo podemos, como equipo, hacer una contribución rápida y sólida hacia los objetivos comerciales de la empresa". Es decir, aumentar las ventas y el compromiso del usuario ".

Esto podría significar dejar a un lado los documentos de aprendizaje automático e implementar un algoritmo simple para mostrar recomendaciones de productos basadas en la categoría más buscada de cada usuario. También podría significar controlar cuánto se hace clic en estas recomendaciones. Esto puede llevar unos días o semanas de trabajo, y una vez integrado en el sitio web y monitoreado a lo largo del tiempo, puede informar decisiones adicionales. Las mejoras adicionales, que pueden incluir un enfoque de filtrado colaborativo, se pueden comparar con la idea de trabajo inicial.

Puede ser bastante difícil motivar a las personas inteligentes con doctorados para que trabajen en "fruta baja", como encontrar la categoría de producto más buscada de cada usuario. Algunas formas de convencerlos son:

  • Señale que los algoritmos simples siempre se pueden hacer incrementalmente más complejos, mientras que es más difícil al revés. Construir cosas simples primero significa que es más probable que el algoritmo sobreviva de alguna forma a largo plazo.
  • Permita, e incluso aliente, a los científicos de datos a realizar proyectos paralelos, hacer kaggle y leer documentos durante las horas de trabajo. Quizás incluso organice hackatones internos donde los científicos de datos puedan volverse locos sin preocuparse por integrar el resultado final al producto. Estas actividades pueden mantenerlos afilados e inspirados.
  • Haga arreglos para que los científicos de datos tengan reuniones individuales quincenales o mensuales con las partes interesadas del negocio. De esta manera se mantienen conectados con la visión de la empresa.

Es importante pedirle a su equipo que se comunique regularmente con usted en qué están trabajando y por qué, a fin de comprender lo que esperan lograr. Hay varias formas de realizar un seguimiento de las tareas, como los tableros Kanban o JIRA. Mantener un historial de ideas que la gente haya tenido, y si las ideas funcionaron es útil. No para juzgar a las personas, sino para desarrollar una intuición colectiva de lo que es probable que funcione y lo que ya se ha intentado.

En cuanto a usted, tiene sentido tener reuniones semanales (o más frecuentes) con el lado comercial de las cosas. Esto es para asegurarse de que las tareas pendientes del equipo corresponden a las necesidades comerciales reales y se actualizan a medida que estas necesidades cambian. Para que las reuniones sean productivas, haga muchas preguntas para discernir los requisitos reales de las palabras de moda y aclarar las expectativas. Como usted es el que tiene más conocimiento sobre los datos, haga sugerencias sobre lo que puede ser posible con los datos que tiene. Aquí hay algunos puntos que puede plantear:

  • No tenemos suficientes datos para aplicar [algoritmos de aprendizaje profundo].
  • Cuando [hemos integrado el aprendizaje automático] en nuestras recomendaciones, ¿qué valor espera que traiga al negocio?
  • El equipo de servicio al cliente gasta [x horas por mes] clasificando la gravedad de los tickets de soporte. Podemos construir una herramienta para clasificarlos automáticamente para liberar tiempo. ¿Qué piensas?

Una vez que haya aclarado la dirección en la que debe ir el equipo de ciencia de datos, es hora de hacer que sea lo más fácil posible llegar allí.

Construyendo un sistema robusto

La robustez se refiere a qué tan bien un sistema de procesamiento de datos puede responder a entradas y cargas inesperadas, qué tan rápido los problemas pueden ser aparentes y resueltos, y si existe un mecanismo para integrar la retroalimentación externa en el sistema. Desea estar atento a cómo se comporta el sistema con respecto a los errores técnicos, pero también a los resultados comerciales.

Continuando con el ejemplo de generación de recomendaciones, para evitar errores, deberá realizar un seguimiento de lo que sucede cuando la categoría favorita del usuario se elimina o se reorganiza. Más importante aún, también necesitará monitorear cómo las métricas empresariales se ven afectadas por los cambios, como la proporción de clics en los enlaces recomendados.

Invertir el esfuerzo para hacer que la generación de recomendaciones sea más compleja (por ejemplo, teniendo en cuenta el género del usuario o el idioma del navegador) sin un sistema establecido para realizar un seguimiento de las métricas comerciales afectadas, es un mal uso de los recursos. La complejidad de los algoritmos y la complejidad de un sistema que garantiza la calidad y proporciona retroalimentación necesita crecer a un ritmo similar.

Como líder de equipo, es su trabajo establecer la infraestructura que permita la integración, entrega y evaluación continuas de los algoritmos de ciencia de datos. Tendrá que sentar las bases usted mismo y abogar por la contratación de personas clave para apoyar este esfuerzo, es decir, ingenieros de datos. Estas son las personas que escribirán pruebas de regresión exhaustivas en grandes conjuntos de datos, configurarán y supervisarán tuberías de datos y aprovisionarán máquinas con las dependencias necesarias para que los científicos de datos trabajen. También crearán herramientas personalizadas para combinar datos de resultados comerciales y datos sobre las versiones de algoritmos que crearon esos resultados. Estos datos son precisamente los comentarios que deben integrarse antes de continuar el trabajo.

Puede ser de interés mirar esta charla por Jesse T. Anderson. Él profundiza sobre la importancia de tener ingenieros de datos, y en los números correctos en su equipo, lo que significa tener más de ellos que los científicos de datos reales.

Construyendo relaciones dentro de la organización

Incluso si el equipo de ciencia de datos está trabajando diligentemente en la creación de valor, respaldado por ingenieros de datos y procesos sólidos, aún pueden surgir obstáculos externos. Estos obstáculos pueden tomar la forma de un equipo diferente que cambia los sistemas compartidos, como las API, sin consultar primero al equipo de ciencia de datos. También puede ser simplemente que el resto de la organización desconoce el valor que proporciona el equipo de ciencia de datos.

Nunca es demasiado tarde y más efectivo para ser proactivo y construir relaciones sólidas con otros equipos antes de que ocurran graves malentendidos. Si su empresa tiene presentaciones internas periódicas, asegúrese de presentar en qué está trabajando. Si existe un sistema para realizar un seguimiento de qué algoritmos causaron qué resultados comerciales, como se describe en la sección anterior, haga una presentación sobre el valor que proporciona el equipo de ciencia de datos, o tal vez, sobre lo que se intentó y no funcionó .

Invite a personas de otros departamentos a que acudan a usted con preguntas e ideas. Hay algunos departamentos que tienen una relación naturalmente cercana con el equipo de ciencia de datos, como Marketing & Analytics. Asegúrese de comprender cómo funcionan y cómo pueden proporcionarle datos sobre métricas comerciales, como las tasas de clics y las tasas de conversión.

Para colaborar con otros equipos técnicos en particular, existen patrones bien conocidos que puede adoptar. Supongamos una arquitectura de microservicio, donde las recomendaciones son atendidas por una aplicación web ligera o una Lambda. Para probar la interacción entre el servicio de recomendación y otros servicios cuando se implementan actualizaciones a cualquiera de ellos, se puede usar pruebas de contrato dirigidas al consumidor y agregue esas pruebas al proceso de integración continua. Puedes leer este artículo por Ian Robinson para un análisis exhaustivo de este patrón de prueba. Las pruebas de contrato impulsadas por el consumidor fallarán cuando haya un cambio importante (por ejemplo, una API cambia y sus clientes aún esperan el tipo de datos anterior). Esta será una alerta inmediata de que uno o más servicios deben ajustarse antes de implementarse en producción, y garantizará que los diferentes equipos permanezcan sincronizados.

Conclusión

Como líder del equipo de ciencia de datos, puede estar abrumado con decisiones y responsabilidades. Lo más importante es asegurarse de que usted y su equipo se muevan en la dirección correcta resolviendo problemas comerciales tangibles. Este es un proceso constante de gestión de la comunicación con las partes interesadas a medida que cambian las prioridades. Construir un proceso de desarrollo sostenible y cultivar relaciones sólidas dentro de la organización puede acelerar su progreso.

Sin una base para proporcionar valor comercial y poder medirlo, la excelencia técnica será de uso limitado y no será suficiente para generar confianza con otros equipos. El objetivo es proporcionar de forma incremental suficiente valor para inspirar la confianza de que, a medida que el negocio cambia y evoluciona, el equipo de ciencia de datos estará igualmente preparado para adaptarse y hacer un buen uso de los datos y oportunidades existentes.

Fuente: https://www.codementor.io/blog/data-science-production-7h8ko1958k

punto_img

Información más reciente

punto_img