CSAM encontrado en un gran conjunto de datos de entrenamiento de generadores de imágenes de IA

Se ha descubierto que un enorme conjunto de datos públicos que sirvió como datos de entrenamiento para generadores de imágenes de IA populares, incluido Stable Diffusion, contiene miles de casos de material de abuso sexual infantil (CSAM).

En un estudio Publicado hoy, el Observatorio de Internet de Stanford (SIO) dijo que examinó minuciosamente más de 32 millones de puntos de datos en el conjunto de datos LAION-5B y pudo validar, utilizando la herramienta PhotoDNA desarrollada por Microsoft, 1,008 imágenes CSAM, algunas incluidas varias veces. Es probable que esa cifra sea "un recuento significativamente insuficiente", dijeron los investigadores en su artículo.

LAION-5B no incluye las imágenes en sí, sino que es una colección de metadatos que incluye un hash del identificador de la imagen, una descripción, datos de idioma, si puede ser inseguro y una URL que apunta a la imagen. Varias de las fotos CSAM encontradas vinculadas en LAION-5B se encontraron alojadas en sitios web como Reddit, Twitter, Blogspot y WordPress, así como en sitios web para adultos como XHamster y XVideos.

Para encontrar imágenes en el conjunto de datos que valieran la pena probar, SIO se centró en imágenes etiquetadas por el clasificador de seguridad de LAION como "inseguras". Esas imágenes fueron escaneadas con PhotoDNA para detectar CSAM y las coincidencias se enviaron al Centro Canadiense para la Protección Infantil (C3P) para su verificación.

"La eliminación del material fuente identificado está actualmente en progreso, ya que los investigadores informaron las URL de las imágenes al Centro Nacional para Niños Desaparecidos y Explotados (NCMEC) en los EE. UU. y al C3P", dijo el SIO. dijo.

LAION-5B se utilizó para entrenar el popular generador de imágenes de IA Stable Diffusion, cuya versión 1.5 es bien conocida en ciertos rincones de Internet por su capacidad para crear imágenes explícitas. Si bien no está directamente relacionado con casos como el de un psiquiatra infantil usando IA para generar imágenes pornográficas de menores, es ese tipo de tecnología la que se hace sextorsión deepfake y otros delitos más fácilmente.

Según el SIO, Stable Diffusion 1.5 sigue siendo popular en línea por generar fotografías explícitas después de la "insatisfacción generalizada de la comunidad" con el lanzamiento de Stable Diffusion 2.0, que agregó filtros adicionales para evitar que imágenes inseguras se introduzcan en el conjunto de datos de entrenamiento.

No está claro si Stability AI, que desarrolló Stable Diffusion, conocía la presencia de CSAM potencial en sus modelos debido al uso de LAION-5B; la empresa no respondió a nuestras preguntas.

Ups, lo hicieron de nuevo.

Si bien es la primera vez que los datos de entrenamiento de IA de la organización alemana sin fines de lucro LAION han sido acusados de albergar pornografía infantil, la organización ha sido criticada por incluir contenido cuestionable en sus datos de entrenamiento anteriormente.

Google, que utilizó un predecesor LAION-2B conocido como LAION-400M para entrenar su generador Imagen AI, decidió no lanzar nunca la herramienta debido a varias preocupaciones, incluida si los datos de entrenamiento de LAION le habían ayudado a construir un modelo sesgado y problemático.

Según el equipo de Imagen, el generador mostró "un sesgo general hacia la generación de imágenes de personas con tonos de piel más claros y... retratando diferentes profesiones para alinearse con los estereotipos de género occidentales". Modelar cosas distintas a los humanos no mejoró la situación, lo que provocó que Imagen "codifique una variedad de prejuicios sociales y culturales al generar imágenes de actividades, eventos y objetos".

Una auditoría del propio LAION-400M “descubrió una amplia gama de contenido inapropiado, incluidas imágenes pornográficas, insultos racistas y estereotipos sociales dañinos”.

Unos meses después de que Google decidiera no hacer pública Imagen, un artista manchado Imágenes médicas de una cirugía a la que se sometió en 2013 presentes en LAION-5B, que nunca dio permiso para incluir.

LAION no respondió a nuestras preguntas sobre el tema, pero el fundador Christoph Schuhmann le dijo a Bloomberg a principios de este año que estaba inconsciente de cualquier CSAM presente en LAION-5B, aunque también admitió que "no revisó los datos en gran profundidad".

Casualmente o no (no se menciona el estudio de SIO), LAION decidió ayer introducir planea implementar “procedimientos de mantenimiento regulares”, que comenzarán de inmediato, para eliminar “enlaces en los conjuntos de datos de LAION que aún apuntan a contenido sospechoso y potencialmente ilegal en la Internet pública”.

"LAION tiene una política de tolerancia cero con el contenido ilegal", dijo la empresa. "Los conjuntos de datos públicos se eliminarán temporalmente para volver después del filtrado de actualizaciones". LAION planea devolver sus conjuntos de datos al público en la segunda quincena de enero. ®

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://go.theregister.com/feed/www.theregister.com/2023/12/20/csam_laion_dataset/

Inteligencia de datos generativa

CSAM encontrado en un gran conjunto de datos de entrenamiento de generadores de imágenes de IA

Ups, lo hicieron de nuevo.

Binance integra USD Coin (USDC) en la red base

El verdadero costo: implementar infraestructura de carga de vehículos eléctricos en todo el país – CleanTechnica

Información más reciente

Nueva plataforma de análisis arroja luz sobre el futuro de la energía solar de las empresas de servicios públicos – CleanTechnica

Deutsche Bank se une al proyecto Guardian de MAS para explorar la tokenización de activos – Fintech Singapore

Abordar el riesgo de deforestación en las carteras financieras | negocio verde

Autenticidad en la era de los deepfakes: el enfoque multicapa ZOLOZ eKYC – Fintech Singapore

Fetch AI (FET) avanza en el monitoreo de Blockchain con la integración de BlockAgent y Chainlink (LINK)

¿Son los tokens de juegos la próxima gran novedad en las finanzas virtuales?