Logotipo de Zephyrnet

¿Puede la gobernanza de datos abordar la fatiga de la IA? – KDnuggets

Fecha:

¿Puede la gobernanza de datos abordar la fatiga de la IA?
Imagen del autor
 

La gobernanza de datos y la fatiga de la IA suenan como dos conceptos diferentes, pero existe una conexión intrínseca entre los dos. Para entenderlo mejor, comencemos por su definición. 

Ha sido el foco central de la industria de datos durante mucho tiempo.

Google lo expresa bien: “La gobernanza de datos es todo lo que se hace para garantizar que los datos sean seguros, privados, precisos, disponibles y utilizables. Implica establecer estándares internos (políticas de datos) que se aplican a cómo se recopilan, almacenan, procesan y eliminan los datos”.

Como destaca esta definición, la gobernanza de datos consiste en gestionar datos, precisamente el motor que impulsa los modelos de IA.

Ahora que han comenzado a surgir los primeros signos del vínculo entre la gobernanza de datos y la IA, relacionémoslo con la fatiga de la IA. Aunque el nombre lo delata, resaltar las razones que conducen a dicha fatiga garantiza el uso constante de este término en toda la publicación.  

La fatiga de la IA surge debido a los reveses y desafíos que enfrentan las organizaciones, los desarrolladores o los equipos, lo que a menudo conduce a una realización o implementación de valor fallida de los sistemas de IA.

En su mayoría, comienza con expectativas poco realistas sobre lo que la IA es capaz de hacer. Para tecnologías sofisticadas como la IA, las partes interesadas clave deben alinearse no solo con las capacidades y posibilidades de la IA, sino también con sus limitaciones y riesgos.

Hablando de riesgos, la ética a menudo se considera una ocurrencia tardía que lleva a descartar iniciativas de IA que no cumplen con las normas.

Debe preguntarse cuál es el papel de la gobernanza de datos a la hora de provocar fatiga en la IA: la premisa de esta publicación.

Hacia allí nos dirigimos a continuación. 

La fatiga de la IA se puede clasificar en términos generales como antes y después del despliegue. Primero centrémonos en la fase previa al despliegue.

Pre-implementación

Varios factores contribuyen a graduar una prueba de concepto (PoC) para su implementación, tales como:

  • ¿Qué estamos intentando solucionar?
  • ¿Por qué es un problema apremiante priorizar ahora?
  • ¿Qué datos están disponibles?
  • ¿Se puede resolver mediante ML en primer lugar?
  • ¿Los datos tienen un patrón?
  • ¿Es repetible el fenómeno?
  • ¿Qué datos adicionales mejorarían el rendimiento del modelo?

 

¿Puede la gobernanza de datos abordar la fatiga de la IA?
Imagen de Freepik 
 

Una vez que hemos evaluado que el problema se puede resolver mejor utilizando algoritmos de ML, el equipo de ciencia de datos realiza un análisis de datos exploratorio. En esta etapa se descubren muchos patrones de datos subyacentes, lo que resalta si los datos proporcionados son ricos en señal. También ayuda a crear funciones diseñadas para acelerar el proceso de aprendizaje del algoritmo.

A continuación, el equipo construye el primer modelo de referencia y, a menudo, descubre que no está funcionando al nivel aceptable. Un modelo cuyo rendimiento es tan bueno como el de lanzar una moneda al aire no añade valor. Este es uno de los primeros contratiempos, también conocidos como lecciones, al crear modelos de ML.

Las organizaciones pueden pasar de un problema empresarial a otro, provocando fatiga. Aún así, si los datos subyacentes no transmiten una señal rica, ningún algoritmo de IA puede basarse en ellos. El modelo debe aprender las asociaciones estadísticas de los datos de entrenamiento para generalizar sobre datos invisibles.

Después de la implementación

A pesar de que el modelo entrenado muestra resultados prometedores en el conjunto de validación, de acuerdo con los criterios comerciales de calificación, como una precisión del 70 %, aún puede surgir fatiga si el modelo no funciona adecuadamente en el entorno de producción.

Este tipo de fatiga de la IA se denomina fase posterior al despliegue. 

Hay innumerables razones que podrían provocar un deterioro del rendimiento, donde la mala calidad de los datos es el problema más común que afecta al modelo. Limita la capacidad del modelo para predecir con precisión la respuesta objetivo en ausencia de atributos cruciales. 

Considere cuando una de las características esenciales, que solo faltaba en un 10 % en los datos de entrenamiento, ahora se vuelve nula el 50 % de las veces en los datos de producción, lo que genera predicciones erróneas. Tales iteraciones y esfuerzos para garantizar que los modelos funcionen de manera consistente generan fatiga en los científicos de datos y los equipos comerciales, lo que erosiona la confianza en los canales de datos y pone en riesgo las inversiones realizadas en el proyecto.

Las medidas sólidas de gobernanza de datos son fundamentales para abordar ambos tipos de fatiga de la IA. Dado que los datos son el núcleo de los modelos de ML, los datos ricos en señales, sin errores y de alta calidad son imprescindibles para el éxito de un proyecto de ML. Abordar la fatiga de la IA requiere un fuerte enfoque en la gobernanza de datos. Por lo tanto, debemos trabajar rigurosamente para garantizar la calidad adecuada de los datos, sentando las bases para crear modelos de última generación y ofrecer información empresarial confiable.

Calidad de los Datos

La calidad de los datos, la clave para una gobernanza de datos próspera, es un factor de éxito crítico para los algoritmos de aprendizaje automático. Las organizaciones deben invertir en la calidad de los datos, como publicar informes para los consumidores de datos. En proyectos de ciencia de datos, piense en lo que sucede cuando datos de mala calidad llegan a los modelos, lo que puede provocar un rendimiento deficiente.

Solo durante el análisis de errores los equipos podrían identificar los problemas de calidad de los datos que, cuando se envían para su reparación, terminan causando fatiga entre los equipos.

Claramente, no es sólo el esfuerzo invertido, sino que se pierde mucho tiempo hasta que los datos correctos comienzan a llegar.

Por lo tanto, siempre se recomienda solucionar los problemas de datos en origen para evitar iteraciones que consumen mucho tiempo. Finalmente, los informes de calidad de datos publicados aluden a que el equipo de ciencia de datos (o, en realidad, a cualquier otro usuario intermedio y consumidor de datos) comprende la calidad aceptable de los datos entrantes.

Sin medidas de gobernanza y calidad de los datos, los científicos de datos se verían sobrecargados con problemas de datos, lo que contribuiría a que los modelos fallidos provocaran la fatiga de la IA. 

La publicación destacó las dos etapas en las que se produce la fatiga de la IA y presentó cómo las medidas de gobernanza de datos, como los informes de calidad de los datos, pueden facilitar la construcción de modelos sólidos y confiables.

Al establecer una base sólida a través de la gobernanza de datos, las organizaciones pueden construir una hoja de ruta para el desarrollo y la adopción exitosos y fluidos de la IA, infundiendo entusiasmo.

Para garantizar que la publicación brinde una descripción general holística de las diversas formas de abordar la fatiga de la IA, también enfatizo el papel de la cultura organizacional, que, combinada con otras mejores prácticas como la gobernanza de datos, permitirá y empoderará a los equipos de ciencia de datos para generar contribuciones significativas a la IA en el menor tiempo posible. más rápido.
 
 

vidhi chugh es un estratega de inteligencia artificial y un líder de transformación digital que trabaja en la intersección de productos, ciencias e ingeniería para construir sistemas escalables de aprendizaje automático. Es una líder en innovación galardonada, autora y oradora internacional. Tiene la misión de democratizar el aprendizaje automático y romper la jerga para que todos sean parte de esta transformación.

punto_img

Información más reciente

punto_img