Logotipo de Zephyrnet

CSAM encontrado en un gran conjunto de datos de entrenamiento de generadores de imágenes de IA

Fecha:

Se ha descubierto que un enorme conjunto de datos públicos que sirvió como datos de entrenamiento para generadores de imágenes de IA populares, incluido Stable Diffusion, contiene miles de casos de material de abuso sexual infantil (CSAM).

En un estudio Publicado hoy, el Observatorio de Internet de Stanford (SIO) dijo que examinó minuciosamente más de 32 millones de puntos de datos en el conjunto de datos LAION-5B y pudo validar, utilizando la herramienta PhotoDNA desarrollada por Microsoft, 1,008 imágenes CSAM, algunas incluidas varias veces. Es probable que esa cifra sea "un recuento significativamente insuficiente", dijeron los investigadores en su artículo.

LAION-5B no incluye las imágenes en sí, sino que es una colección de metadatos que incluye un hash del identificador de la imagen, una descripción, datos de idioma, si puede ser inseguro y una URL que apunta a la imagen. Varias de las fotos CSAM encontradas vinculadas en LAION-5B se encontraron alojadas en sitios web como Reddit, Twitter, Blogspot y WordPress, así como en sitios web para adultos como XHamster y XVideos.

Para encontrar imágenes en el conjunto de datos que valieran la pena probar, SIO se centró en imágenes etiquetadas por el clasificador de seguridad de LAION como "inseguras". Esas imágenes fueron escaneadas con PhotoDNA para detectar CSAM y las coincidencias se enviaron al Centro Canadiense para la Protección Infantil (C3P) para su verificación.

"La eliminación del material fuente identificado está actualmente en progreso, ya que los investigadores informaron las URL de las imágenes al Centro Nacional para Niños Desaparecidos y Explotados (NCMEC) en los EE. UU. y al C3P", dijo el SIO. dijo.

LAION-5B se utilizó para entrenar el popular generador de imágenes de IA Stable Diffusion, cuya versión 1.5 es bien conocida en ciertos rincones de Internet por su capacidad para crear imágenes explícitas. Si bien no está directamente relacionado con casos como el de un psiquiatra infantil usando IA para generar imágenes pornográficas de menores, es ese tipo de tecnología la que se hace sextorsión deepfake y otros delitos más fácilmente.

Según el SIO, Stable Diffusion 1.5 sigue siendo popular en línea por generar fotografías explícitas después de la "insatisfacción generalizada de la comunidad" con el lanzamiento de Stable Diffusion 2.0, que agregó filtros adicionales para evitar que imágenes inseguras se introduzcan en el conjunto de datos de entrenamiento.

No está claro si Stability AI, que desarrolló Stable Diffusion, conocía la presencia de CSAM potencial en sus modelos debido al uso de LAION-5B; la empresa no respondió a nuestras preguntas.

Ups, lo hicieron de nuevo.

Si bien es la primera vez que los datos de entrenamiento de IA de la organización alemana sin fines de lucro LAION han sido acusados ​​de albergar pornografía infantil, la organización ha sido criticada por incluir contenido cuestionable en sus datos de entrenamiento anteriormente.

Google, que utilizó un predecesor LAION-2B conocido como LAION-400M para entrenar su generador Imagen AI, decidió no lanzar nunca la herramienta debido a varias preocupaciones, incluida si los datos de entrenamiento de LAION le habían ayudado a construir un modelo sesgado y problemático.

Según el equipo de Imagen, el generador mostró "un sesgo general hacia la generación de imágenes de personas con tonos de piel más claros y... retratando diferentes profesiones para alinearse con los estereotipos de género occidentales". Modelar cosas distintas a los humanos no mejoró la situación, lo que provocó que Imagen "codifique una variedad de prejuicios sociales y culturales al generar imágenes de actividades, eventos y objetos".

Una auditoría del propio LAION-400M “descubrió una amplia gama de contenido inapropiado, incluidas imágenes pornográficas, insultos racistas y estereotipos sociales dañinos”.

Unos meses después de que Google decidiera no hacer pública Imagen, un artista manchado Imágenes médicas de una cirugía a la que se sometió en 2013 presentes en LAION-5B, que nunca dio permiso para incluir.

LAION no respondió a nuestras preguntas sobre el tema, pero el fundador Christoph Schuhmann le dijo a Bloomberg a principios de este año que estaba inconsciente de cualquier CSAM presente en LAION-5B, aunque también admitió que "no revisó los datos en gran profundidad".

Casualmente o no (no se menciona el estudio de SIO), LAION decidió ayer introducir planea implementar “procedimientos de mantenimiento regulares”, que comenzarán de inmediato, para eliminar “enlaces en los conjuntos de datos de LAION que aún apuntan a contenido sospechoso y potencialmente ilegal en la Internet pública”.

"LAION tiene una política de tolerancia cero con el contenido ilegal", dijo la empresa. "Los conjuntos de datos públicos se eliminarán temporalmente para volver después del filtrado de actualizaciones". LAION planea devolver sus conjuntos de datos al público en la segunda quincena de enero. ®

punto_img

Información más reciente

punto_img