Logotipo de Zephyrnet

Etiquetado ágil de datos: qué es y por qué lo necesita

Fecha:

Etiquetado ágil de datos: qué es y por qué lo necesita

La noción de Agile en el desarrollo de software ha hecho olas en todas las industrias con su revolución para la productividad. ¿Se pueden aplicar los mismos beneficios a la ardua tarea de anotar conjuntos de datos para el aprendizaje automático?


By jennifer prendki, Fundador y CEO @ Alectio, Emprendedor de aprendizaje automático.

El concepto de agilidad es sin duda uno de los más populares en tecnología, pero no uno que asociaría naturalmente con el etiquetado de datos. Y es bastante fácil entender por qué: “Agile” generalmente inspira eficiencia. El etiquetado, sin embargo, apenas se discute en los círculos de ML sin desencadenar una ráfaga de suspiros frustrados.

Figura 1: El Manifiesto Ágil describe un conjunto de 'reglas' que los desarrolladores de software creen que los harían más productivos.

Para comprender cómo se adoptó Agile de manera tan generalizada, es necesario volver a sus orígenes. En 2001, un grupo de 17 ingenieros de software se reunió en un resort en Utah para intercambiar ideas sobre cómo mejorar su industria. Pensaban que la forma en que se gestionaban los proyectos era inapropiada, ineficiente y excesivamente regulada. Entonces, se les ocurrió el Manifiesto Ágil, un conjunto de pautas que pensaron que podrían mejorar el rendimiento (¡y el nivel de cordura!) De los equipos de ingeniería de software. El Manifiesto Ágil fue un clamor contra la falta de proceso que impedía el progreso. Y en muchos sentidos, esto es exactamente lo que se necesita para el etiquetado de datos.

Figura 2: Una inmersión profunda en el Manifiesto Ágil y sus principios fundamentales.

Volver al aprendizaje automático. Sin lugar a dudas: el progreso que hemos logrado en el campo durante las últimas décadas es simplemente alucinante. Tanto es así que la mayoría de los expertos están de acuerdo en que la tecnología ha evolucionado demasiado rápido para que nuestras leyes e instituciones la sigan. (¿No estás convencido? Solo piensa en las terribles consecuencias que DeepFakes podría tener en la paz mundial). Aún así, a pesar de la explosión de nuevos productos de IA, el éxito de los proyectos de ML se reduce a una cosa: los datos. Si no tiene los medios para recopilar, almacenar, validar, limpiar o procesar los datos, su modelo de aprendizaje automático seguirá siendo un sueño lejano para siempre. Incluso OpenAI, una de las empresas de ML más prestigiosas del mundo, decidió cerrar uno de sus departamentos después de llegar a un acuerdo de que no tenían los medios para adquirir los datos necesarios para sus investigadores.

Y si cree que todo lo que se necesita es encontrar un conjunto de datos de código abierto con el que trabajar, piénselo de nuevo: no solo son pocos los casos de uso para los que existen datos relevantes de código abierto, la mayoría de estos conjuntos de datos también están sorprendentemente equivocados, y usarlos en la producción sería irresponsable.

Naturalmente, con un hardware cada vez mejor y más asequible, la recopilación de su propio conjunto de datos ya no debería ser un gran problema. Sin embargo, el problema principal es que esos datos no se pueden usar tal como están porque deben anotarse. Y a pesar de su apariencia, no es una tarea fácil.

Figura 3: Anotar todos los planos en esta imagen para casos de uso de detección de objetos o segmentación de objetos podría llevar más de una hora, incluso para un experto experimentado. Imagínese tener que hacer eso para 50,000 imágenes y tener que garantizar la calidad de las anotaciones sin ayuda.

Etiquetar datos es abrumador. Para muchos científicos de ML, anotar datos representa una parte ridículamente grande de su carga de trabajo. Y aunque anotar datos usted mismo no es una tarea agradable para la mayoría de las personas, subcontratar el proceso a un tercero puede ser aún más tedioso.

Figura 4: Una imagen de una de las diapositivas de Andrey Karpathy en Train AI 2018, donde describió el tiempo que él y su equipo dedicaron a la preparación de datos en Tesla.

Imagina que tuvieras que explicarle a un completo extraño que nunca conociste y que no puedes comunicarte directamente con lo que consideras un tweet tóxico, un resultado relevante para una consulta de búsqueda o incluso un peatón en una imagen. Imagínese asegurarse de que cientos de personas entenderán su instrucción exactamente de la misma manera, aunque cada una tenga diferentes opiniones y antecedentes y que tal vez no sepan nada de lo que está tratando de lograr. Eso es exactamente de lo que se trata la subcontratación de su proceso de etiquetado.

Figura 5: ¿Las personas en el anuncio deben etiquetarse como personas?

¿Qué tiene esto que ver con Agile? Bueno, si aún no lo ha adivinado, la creciente frustración entre los científicos de ML con respecto al etiquetado podría ser nuestra señal de que es hora de repensar cómo hacemos las cosas. Es hora del Manifiesto Ágil de Etiquetado de Datos.

El Manifiesto Ágil de Desarrollo de Software se reduce fundamentalmente a un concepto fundamental: reactividad. Afirma que un enfoque rígido no funciona. En cambio, los ingenieros de software deben confiar en los comentarios de los clientes, de sus pares. Deben estar preparados para adaptarse y aprender de sus errores para asegurarse de que pueden alcanzar sus objetivos finales. Eso es interesante porque la falta de retroalimentación y reactividad es precisamente la razón por la que los equipos tienen miedo de subcontratar. Es la razón principal por la que las tareas de etiquetado a menudo toman una cantidad de tiempo ridícula y pueden costar a las empresas millones de dólares.

Un Manifiesto Ágil de Etiquetado de Datos exitoso debería comenzar con el mismo principio de reactividad, que sorprendentemente ha estado ausente de la narrativa de las empresas de etiquetado de datos. La preparación exitosa de los datos de entrenamiento implica cooperación, retroalimentación y disciplina.

Figura 5: Un manifiesto ágil de etiquetado de datos.

1. Combinando múltiples métodos / herramientas

El concepto de Autoetiquetado, que consiste en utilizar un modelo ML para generar etiquetas “sintéticas”, se ha vuelto cada vez más popular en los últimos años, ofreciendo esperanza a los cansados ​​del status quo, pero es solo un intento de agilizar el etiquetado de datos. Sin embargo, la verdad es que ningún enfoque resolverá todos los problemas: en el centro del etiquetado automático, por ejemplo, está el problema del huevo y la gallina. Por eso el concepto de Humano en el bucle el etiquetado está ganando terreno.

Dicho esto, esos intentos se sienten descoordinados y brindan poco o ningún alivio a las empresas que a menudo luchan por ver cómo esos nuevos paradigmas se aplican a sus propios desafíos. Es por eso que la industria necesita más visibilidad y transparencia con respecto a las herramientas existentes (un maravilloso intento inicial es el Guía de soluciones TWIML, aunque no está dirigido específicamente a soluciones de etiquetado), una fácil integración entre esas herramientas, así como un flujo de trabajo de etiquetado de un extremo a otro que se integra naturalmente con el resto del ciclo de vida del ML.

2. Aprovechamiento de la fuerza del mercado

La subcontratación del proceso puede no ser una opción para casos de uso especializados en los que ningún tercero es capaz de ofrecer resultados satisfactorios. Esto se debe a que la mayoría de las empresas de etiquetado dependen del crowdsourcing o de los BPO, lo que significa que sus anotadores no son una fuerza laboral altamente capacitada; no podrán anotar el cáncer de cerebro en las resonancias magnéticas por usted. Afortunadamente, algunas startups ahora se están enfocando en brindar servicios especializados para verticales específicas.

Pero independientemente de si necesita ayuda de expertos, todavía es difícil identificar la empresa adecuada para usted. La mayoría de las empresas de etiquetado lo hacen todo, pero en última instancia tienen sus propias fortalezas y debilidades, que los clientes a menudo descubren solo después de firmar un contrato de un año. Comparar todas las opciones es clave para encontrar los mejores anotadores disponibles en el momento en que los necesite y debería ser una parte esencial del proceso.

3. Adopción de un enfoque iterativo

El proceso de etiquetado de datos está sorprendentemente exento de cualquier ciclo de retroalimentación, a pesar de que la retroalimentación está en el centro mismo del aprendizaje automático. A nadie se le ocurriría desarrollar un modelo a ciegas y, sin embargo, eso es lo que se hace tradicionalmente para generar etiquetas. Adoptar un enfoque de rastreo, caminata y ejecución para ajustar y optimizar su proceso de etiquetado y su conjunto de datos para el modelo es, sin duda, el camino a seguir. Es por eso que un paradigma basado en humanos en el ciclo, donde las máquinas anotan previamente y los humanos validan, es el claro ganador.

Un enfoque aún más prometedor consiste en escuchar las pistas del modelo para identificar dónde y por qué falla el modelo, identificando potencialmente etiquetas incorrectas y corrigiéndolas si es necesario. Una forma de hacerlo es mediante el aprendizaje activo.

4. Favorecer la calidad sobre la cantidad

Si le han enseñado que cuantos más datos, mejor, definitivamente no es el único: ese es uno de los conceptos erróneos más comunes en el aprendizaje automático. Sin embargo, no es el volumen lo que importa, sino la variedad. La escala está simplemente sobrevalorada. Obviamente, necesita algunos datos para arrancar, pero grandes cantidades de datos conducen inexorablemente a rendimientos decrecientes; eso es pura economía.

En cambio, a menudo es más beneficioso invertir tiempo y dinero en obtener las etiquetas adecuadas para un conjunto de datos de entrenamiento elegido estratégicamente que en etiquetar cargas de datos inútiles. Asegurarse de que la conservación de datos (el concepto de muestrear los registros de capacitación más impactantes) se abra camino en el ciclo de vida de ML debería ser un enfoque clave en MLOps durante los próximos dos años.

Si, como la mayoría de los científicos de datos, se siente frustrado por el etiquetado de datos, podría ser el momento de probar todas esas ideas. Al igual que en los primeros días de Agile, ninguno de los preceptos es particularmente difícil de aplicar, pero todos requieren autodisciplina y conciencia.

Ciertamente, hay un largo camino por recorrer para incorporar esas mejores prácticas a los hábitos diarios de los científicos de datos en todo el mundo, pero como cualquier cambio significativo, comienza con uno. Recuerde que en 2001, una reunión en una estación de esquí fue todo lo que se necesitó para encender el motor que condujo a una revolución en el desarrollo de software. Es posible que nuestra revolución ya se esté desarrollando frente a nuestros ojos desprevenidos; de hecho, probablemente lo esté. Así que estad atentos y disfruta del viaje.

Bio: Dra. Jennifer Prendki es el fundador y CEO de Alectio, la primera plataforma de operaciones de preparación de datos impulsada por ML. Ella y su equipo tienen la misión de ayudar a los equipos de ML a crear modelos con menos datos y eliminar todos los puntos débiles asociados con la preparación de datos "tradicional". Antes de Alectio, Jennifer fue vicepresidenta de aprendizaje automático en Figure Eight; también creó una función de aprendizaje automático completa desde cero en Atlassian y dirigió varios proyectos de ciencia de datos en el equipo de búsqueda de Walmart Labs. Es reconocida como una de las principales expertas de la industria en aprendizaje activo y gestión del ciclo de vida del aprendizaje automático, y es una oradora consumada que disfruta dirigirse a audiencias tanto técnicas como no técnicas.

Relacionado:


PlatoAi. Web3 reinventado. Inteligencia de datos ampliada.
Haga clic aquí para acceder.

Fuente: https://www.kdnuggets.com/2021/08/agile-data-labeling.html

punto_img

Información más reciente

punto_img