El MIT elimina un conjunto de datos de 80 millones de imágenes diminutas debido a contenido racista y ofensivo

Los creadores del conjunto de datos 80 Million Tiny Images de MIT y NYU desconectaron la colección esta semana, se disculparon y pidieron a otros investigadores que se abstuvieran de usar el conjunto de datos y eliminar cualquier copia existente. La noticia fue compartida Lunes en una carta por los profesores del MIT Bill Freeman y Antonio Torralba y el profesor de la NYU Rob Fergus publicado en el sitio web del MIT CSAIL.

Introducido en 2006 y que contenía fotos extraídas de los motores de búsqueda de Internet, recientemente se descubrió que 80 Million Tiny Images contenía una gama de etiquetas racistas, sexistas y ofensivas, como casi 2,000 imágenes etiquetadas con la palabra N y etiquetas como "sospechoso de violación" y " abusador de menores ". El conjunto de datos también contenía contenido pornográfico, como fotos no consensuadas tomadas por faldas de mujeres. Los creadores del conjunto de datos de 79.3 millones de imágenes dijeron que era demasiado grande y sus 32 x 32 imágenes demasiado pequeñas, lo que dificulta la inspección visual del contenido completo del conjunto de datos. Según Google Scholar, 80 millones de pequeñas imágenes han sido citadas más 1,700 veces.

Arriba: Etiquetas ofensivas encontradas en el conjunto de datos 80 Million Tiny Images

"Los prejuicios, las imágenes ofensivas y perjudiciales, y la terminología despectiva enajenan a una parte importante de nuestra comunidad, precisamente aquellos que estamos haciendo esfuerzos para incluir", escribieron los profesores en una carta conjunta. “También contribuye a los prejuicios perjudiciales en los sistemas de IA capacitados en dichos datos. Además, la presencia de imágenes tan perjudiciales perjudica los esfuerzos para fomentar una cultura de inclusión en la comunidad de visión por computadora. Esto es extremadamente desafortunado y va en contra de los valores que nos esforzamos por mantener ".

El trío de profesores dice que las deficiencias del conjunto de datos fueron señaladas a su atención mediante un análisis y una auditoría. publicado a fines del mes pasado (PDF) por la Universidad de Dublín Ph.D. estudiante Abeba Birhane y Ph.D. de la Universidad Carnegie Mellon estudiante Vinay Prabhu. Los autores dicen que su evaluación es la primera crítica conocida de 80 Million Tiny Images.

VB Transform 2020 en línea - 15-17 de julio. Únase a los principales ejecutivos de IA: Regístrese para la transmisión en vivo gratis.

Tanto los autores del artículo como los creadores de 80 Million Tiny Images dicen que parte del problema proviene de la recopilación automatizada de datos y los sustantivos del Conjunto de datos de WordNet para la jerarquía semántica. Antes de que el conjunto de datos fuera desconectado, los coautores sugirieron que a los creadores de 80 Million Tiny Images les gustara ImagenNet los creadores hicieron y evaluaron las etiquetas utilizadas en la categoría de personas del conjunto de datos. El documento encuentra que los conjuntos de datos de imágenes a gran escala erosionan la privacidad y pueden tener un impacto desproporcionadamente negativo en las mujeres, las minorías raciales y étnicas y las comunidades al margen de la sociedad.

Birhane y Prabhu afirman que la comunidad de visión por computadora debe comenzar a tener más conversaciones sobre el uso ético de los conjuntos de datos de imágenes a gran escala ahora en parte debido a la creciente disponibilidad de herramientas de raspado de imágenes y tecnología de búsqueda de imágenes inversas. Citando trabajos anteriores como el Análisis de IA de excavación de ImageNet, el análisis de conjuntos de datos de imágenes a gran escala muestra que no se trata solo de datos, sino de una cultura en la academia y la industria que considera aceptable crear conjuntos de datos a gran escala sin el consentimiento de los participantes "bajo el pretexto de anonimización ".

“Consideramos que los problemas más profundos tienen sus raíces en las tradiciones estructurales más amplias, los incentivos y el discurso de un campo que trata las cuestiones éticas como una ocurrencia tardía. Un campo donde en la naturaleza es a menudo un eufemismo sin consentimiento. Nos enfrentamos a un sistema que realmente ha dominado las compras de ética, el lavado de la ética, el cabildeo de la ética, el dumping de la ética y la evasión de la ética ”, afirma el periódico.

Para crear conjuntos de datos de imagen más éticos a gran escala, Birhane y Prabhu sugieren:

Desenfocar las caras de las personas en conjuntos de datos
No use material con licencia Creative Commons
Recopile imágenes con el consentimiento claro de los participantes del conjunto de datos
Incluya una tarjeta de auditoría de conjunto de datos con conjuntos de datos de imágenes a gran escala, similar a las tarjetas modelo que utiliza Google AI y las hojas de datos para conjuntos de datos propuestos por Microsoft Research

El trabajo incorpora el trabajo previo de Birhane sobre ética relacional, lo que sugiere que los creadores de los sistemas de aprendizaje automático deben comenzar su trabajo hablando con las personas más afectadas por los sistemas de aprendizaje automático, y que los conceptos de sesgo, equidad y justicia son objetivos móviles.

ImageNet se presentó en CVPR en 2009 y es ampliamente considerado importante para el avance de la visión por computadora y el aprendizaje automático. Mientras que anteriormente algunos de los conjuntos de datos más grandes podían contarse en decenas de miles, ImageNet contiene más de 14 millones de imágenes. los Desafío de reconocimiento visual a gran escala de ImageNet corrió de 2010 a 2017 y condujo al lanzamiento de una variedad de nuevas empresas como Clarifai y MetaMind, un empresa Salesforce adquirida en 2017. Según Google Scholar, ImageNet ha sido citado casi 17,000 veces.

As parte de una serie de cambios detallados en diciembre de 2019, Los creadores de ImageNet, incluido el autor principal Jia Deng y el Dr. Fei-Fei Li, encontraron que 1,593 de las 2,832 categorías de personas en el conjunto de datos potencialmente contienen etiquetas ofensivas, que dijeron que planean eliminar.

“Realmente celebramos el logro de ImageNet y reconocemos los esfuerzos de los creadores para lidiar con algunas cuestiones éticas. No obstante, ImageNet y otros conjuntos de datos de imágenes grandes siguen siendo problemáticos ”, se lee en el documento de Birhane y Prabhu.

Inteligencia de datos generativa

El MIT elimina el conjunto de datos de 80 millones de imágenes minúsculas debido a contenido racista y ofensivo

Maximizing Profits in 2024: A Comprehensive Look at ValueZone.AI

Cobertura en vivo: SpaceX lanzará 23 satélites Starlink en el vuelo Falcon 9 desde Cabo Cañaveral

Información más reciente

Tres claves para que los Islanders ganen el quinto juego

Los Lakers obtienen la codiciada victoria contra Denver, ahora abajo 3-1 en la serie

Falcon 9 lanza satélites de navegación Galileo

Falcon 9 lanza satélites de navegación Galileo

Los entusiastas de Dogecoin y Pepecoin se unen detrás del nuevo token de IA lanzado por la plataforma Wahoo Exchange – CryptoInfoNet

Lecciones del ensayo FTX: Regular los CEX puede no ser suficiente para prevenir malos actores | Opinión – CryptoInfoNet