Logotipo de Zephyrnet

Investigadores de IBM verifican el sesgo de la IA con texto contrafáctico

Fecha:

Comparte este artículo:

Desde el reclutamiento hasta las aplicaciones de riesgo crediticio, o el uso en el sistema de justicia penal y de salud, la falta de confiabilidad de la IA ha dado dolores de cabeza a los investigadores durante años.

Hemos abordado el problema dándole la vuelta.

Nuestro equipo ha desarrollado una IA que verifica la "equidad" de otras IA al generar un conjunto de muestras de texto contrafactuales y probar sistemas de aprendizaje automático sin supervisión.

En nuestro artículo reciente, “Genere sus contrafactuales: hacia la generación controlada de contrafactuales para texto” aceptado en AAAI 2021, describimos cómo nuestro software, denominado GYC, genera casos de prueba para verificar la confiabilidad de los modelos de IA. GYC puede evaluar la precisión de otras IA, el sesgo de género y ejecutar un análisis de sensibilidad, así como verificar la solidez adversaria de un modelo y su capacidad para hacer frente a correlaciones espurias. También verifica la confiabilidad de los sistemas de aprendizaje automático y de lenguaje natural.

¿Qué es el texto contrafactual, de todos modos?

Cualquier texto es una descripción de un escenario o un escenario, y el texto contrafactual es uno generado sintéticamente que un modelo de IA se ve obligado a tratar de manera diferente.

Una forma bien conocida de generar textos contrafactuales es mediante el uso de plantillas y diccionarios predefinidos; así es como, por ejemplo, Lista de verificación obras. Pero en ese caso, el conjunto generado de muestras contrafácticas es muy rígido. GYC, en cambio, genera dichas muestras sin supervisión para que aparezcan en las entradas del usuario como plausibles, diversas, orientadas a objetivos y efectivas.

Para crear la IA, usamos diferentes funciones de pérdida para asegurarnos de que las propiedades deseadas de los contrafactuales se conserven durante la generación del contrafactual. Para guiar la generación, usamos el decodificador GPT-2, una herramienta en ciencia de datos que se basa en restricciones específicas de proximidad y diversidad para cambiar la oración de entrada en una variedad de formas.

El objetivo principal de nuestra IA es impulsar la generación en torno a un condición, Tales como sentimiento. para hacer cumplir la condición, suponemos que tenemos acceso a una función de sentimiento que toma el texto y devuelve la probabilidad de que el texto sea positivo o negativo. Esta función podría estar disponible para nosotros abiertamente o como una caja negra, con contenidos ocultos. Proponemos diferentes formas de lidiar con el acceso de "caja negra" y "caja blanca" al modelo de condición.

Entonces, ¿cómo funciona?

Considere el texto "mi jefe es un hombre". Entonces, un texto contrafáctico podría ser “mi jefe es una mujer”. Un modelo de sentimiento hipotético daría una etiqueta "positiva" a la primera declaración y "negativa" a la segunda. El texto contrafactual de GYC prueba la confiabilidad de la IA que produjo el texto original al realizar esta intervención.

La salida del sistema indica que después de que GYC cambia "hombre" a "mujer", el sentimiento exhibido por el modelo cambia. Por lo general, para un modelo de condición, cambiar una parte mínima del texto (en este caso, el género) no debería afectar en absoluto la etiqueta de opinión de salida. Pero lo hace, y ahí es donde entra nuestra IA. Las muestras contrafactuales se pueden alimentar como datos de entrenamiento para algoritmos de aumento de datos y se pueden usar para eliminar el sesgo del modelo de sentimiento subyacente.

Después de realizar nuestros experimentos en tres conjuntos de datos, observamos que GYC genera un puntaje alto de cambio de etiqueta en contrafácticos que pertenecen a una clase diferente a la oración de entrada. GYC hace esto manteniendo la diversidad y preservando el contenido semántico y la estructura sintáctica de la oración de entrada.

Por ejemplo, considere como entrada de texto este modelo de reconocimiento de entidad nombrada (NER): "Mi amigo vive en el hermoso Londres". Luego, GYC podría generar muestras contrafactuales de alta calidad, como "Mi amigo vive en el majestuoso centro de Chicago" o "Mi amigo vive en el hermoso Londres" o "Mi amigo vive en la ciudad de Nueva Orleans".

Esto significa que GYC puede generar variaciones de la etiqueta de "ubicación" al generar un conjunto diverso de muestras contrafácticas. Con estas muestras, es posible verificar la confiabilidad de la IA analizando la diferencia en el comportamiento de un modelo dado en la entrada y el conjunto contrafáctico. Muestras como esa podrían ser datos de entrenamiento para eliminar el sesgo de cualquier modelo que se diferencie en función de la ubicación.

GYC es el primer método que genera casos de prueba cambiando múltiples elementos en el texto sin ninguna indicación basada en reglas. La investigación aún está en curso y ahora estamos tratando de mejorar el paso de reconstrucción, actualmente costoso de ejecutar para oraciones de más de 15 palabras. También estamos trabajando para que GYC genere contrafactuales utilizando modelos de condiciones múltiples, lo que debería mejorar significativamente la generación automática de contrafactuales.

¿Dónde podría usarse GYC?

Nuestro modelo GYC podría ayudar a probar modelos de procesamiento de lenguaje natural para realizar una verificación de comportamiento. Dichos casos de prueba complementan los casos de prueba tradicionales diseñados por ingenieros de software y parecen ser relevantes con la creciente adopción de algoritmos NLP. GYC se puede adaptar fácilmente para probar cualquier modelo de clasificación, incluso con un acceso de caja negra. Se puede conectar cualquier función de puntuación y generar casos de prueba en torno a una condición específica.

GYC también podría ser beneficioso para el aumento de datos y los algoritmos de emparejamiento logit contrafactual que requieren muestras de texto contrafactual de los datos de entrenamiento para Modelos de lenguaje sin sesgo para el sentimiento.. Dichas muestras deben satisfacer una condición específica, por ejemplo, la presencia de un atributo protegido como el sexo, la edad o la raza. Si bien estas técnicas afirman ser muy exitosas, en realidad es complicado obtener suficientes datos para un atributo protegido correspondiente. GYC podría aumentar el rendimiento de estos algoritmos al generar muestras de texto contrafáctico con alta calidad de generación.

Finalmente, los modelos que requieren explicabilidad también podrían beneficiarse de nuestra investigación. Seguir ciegamente las decisiones de los modelos de IA ha desencadenado problemas con la equidad, la confiabilidad y la privacidad de la IA, lo que ha llevado al surgimiento de la explicabilidad en la IA. GYC podría generar explicaciones textuales sobre una entrada dada y un modelo dado, para identificar y solucionar problemas éticos en los modelos de IA.

Inkit Padhi, Naveen Panwar y Diptikalyan Saha de IBM Research también contribuyeron a este artículo.

IA de investigación de IBM se enorgullece de patrocinar AAAI2021 como patrocinador platino. Presentaremos 40 documentos de seguimiento principal, además de al menos siete documentos de taller, 10 demostraciones, cuatro documentos de IAAI y un tutorial. IBM Research AI también está coorganizando tres talleres. Esperamos que pueda unirse a nosotros del 2 al 9 de febrero para obtener más información sobre nuestra investigación. Para ver nuestra presencia completa en AAAI 2021, visite esta página.

Inventando lo que sigue.

Manténgase actualizado con los últimos anuncios, investigaciones y eventos de IBM Research a través de nuestro boletín.

punto_img

Información más reciente

punto_img