Logotipo de Zephyrnet

La IA de IBM se vuelve multilingüe, con capacitación en un solo idioma

Fecha:

Comparte este artículo:

Este artículo fue escrito por Mihaela Bornea, Lin Pan, sara rosenthal, Radu Florian, Avirup Sil, miembros de IBM Research AI.

AAAI協議会は、いつ設立されましたか.

¿Puedes entender japonés? Si no, entonces la línea de texto de arriba no tendría ningún sentido. Una IA entrenada solo con datos en inglés normalmente tampoco podría entender el texto.

En un nuevo trabajo de investigación, Aprendizaje de transferencia multilingüe para control de calidad utilizando la traducción como aumento de datos, aceptado en AAAI 2021, nuestro equipo presenta dos técnicas novedosas que permiten que una IA comprenda diferentes idiomas mientras solo se entrena en uno. Estas técnicas, construidas sobre BERT multilingüe (un gran modelo de idioma multilingüe preentrenado que puede proporcionar representaciones de texto), use la traducción de lenguaje automático (ML) para hacer que las representaciones para diferentes idiomas parezcan iguales para un sistema de respuesta a preguntas (QA).

La comprensión de lectura automática es un desafío importante de IA que busca demostrar la comprensión del lenguaje por parte de una computadora. Aplicarlo a tareas relacionadas con el control de calidad para permitir que un sistema responda automáticamente preguntas de texto en lenguaje natural es particularmente difícil.

Un desafío central involucrado en la construcción de sistemas de control de calidad de alto rendimiento es el proceso de capacitación intensivo en datos. Los datos de entrenamiento se crean manualmente presentando anotadores con preguntas y pasajes que deben etiquetarse con la respuesta correcta. Este es un proceso lento y costoso. Y otros idiomas lo hacen aún más difícil. Si bien queremos admitir todos los idiomas hablados, la mayoría de los datos etiquetados para el control de calidad actualmente están en inglés y es casi imposible recopilar datos etiquetados a la misma escala para los miles de otros idiomas en uso.

Para hacer frente a este problema, los investigadores han estado desarrollando técnicas para la transferencia entre idiomas. Este es el proceso de entrenar el sistema con datos etiquetados en un idioma pero permitiéndole responder preguntas en otro idioma.

Una solución popular reciente para la transferencia entre idiomas es el uso de grandes modelos de idiomas multilingües previamente entrenados, como BERT multilingüe, que puede proporcionar representaciones de texto o incrustaciones alineadas en cientos de idiomas. Aun así, aunque el BERT multilingüe es eficaz en la transferencia entre idiomas, el rendimiento para los idiomas con pocos recursos suele ser mediocre.

La última investigación multilingüe de IBM

Nuestro equipo investigó dos métodos para ayudar a abordar el desafío de la transferencia entre idiomas.

Uno, Language Adversarial Training, tiene como objetivo hacer que las incrustaciones multilingües sean indistinguibles para un discriminador, un clasificador que distingue los datos reales de los datos creados por un generador. Antes de entrenar el sistema, enriquecemos el conjunto de entrenamiento original en inglés traduciendo cada ejemplo a varios idiomas de destino, incluidos árabe, español, alemán, hindi, vietnamita, chino y japonés. Usamos el conjunto de datos aumentado para entrenar el sistema de control de calidad y el discriminador que usan la misma red BERT subyacente para sus predicciones.

Los dos modelos tienen objetivos antagónicos. La función del Discriminador es identificar el idioma de la pregunta en función de la representación de la pregunta, y la función del modelo de control de calidad es encontrar la respuesta correcta, pero también actualizar las incrustaciones mientras hace que el Discriminador no esté seguro del idioma de la pregunta.

Específicamente, para cada pregunta de entrada, Discriminator produce una distribución de probabilidad sobre todos los idiomas de entrenamiento. A su vez, el sistema QA está entrenado con una función de pérdida adversaria y minimiza la divergencia entre la distribución de probabilidad de lenguaje producida por Discriminator y la distribución uniforme. A medida que avanza el entrenamiento con preguntas en diferentes idiomas, las representaciones multilingües se acercan entre sí en el espacio semántico.

Nuestro segundo método para la transferencia multilingüe de control de calidad se denomina marco de arbitraje lingüístico. Con el arbitraje de idiomas, usamos las propiedades de las traducciones para acercar las incrustaciones multilingües al idioma de entrenamiento (inglés, en nuestro caso). Durante el entrenamiento, el modelo de control de calidad examina el ejemplo etiquetado original junto con su traducción a uno de los idiomas de destino.

Al igual que un árbitro humano, nuestro marco de arbitraje de idiomas garantiza un acuerdo entre el inglés y la traducción mediante dos tareas multilingües adicionales. La primera es la llamada tarea Producir la misma respuesta (PSA) que garantiza que la traducción al japonés produzca la misma respuesta que la pregunta original en inglés. Y la otra es la tarea de similitud de preguntas (QS) que garantiza que la representación de la traducción se acerque a la representación de la pregunta original en inglés al minimizar su similitud de coseno.

Tanto el entrenamiento contradictorio como el arbitraje de idiomas son técnicas efectivas de transferencia de control de calidad entre idiomas que mejoran el rendimiento de tiro cero (sin entrenamiento previo) por un amplio margen, especialmente en idiomas de bajos recursos como el hindi y el árabe. Con estos esfuerzos, nuestro modelo ahora puede entender que la cuestión japonesa AAAI会議はいつ設立されましたか? se traduce como "¿Cuándo se fundó la Conferencia AAAI?" en inglés. Entonces puede encontrar la respuesta correcta: “La organización fue Fundada en 1979."

IBM Research AI se enorgullece de patrocinar AAAI2021 como patrocinador platino. Presentaremos 40 documentos de seguimiento principal, además de al menos 7 documentos de taller, 10 demostraciones, 4 documentos de IAAI y un tutorial. IBM Research AI también está coorganizando 3 talleres. Esperamos que pueda unirse a nosotros del 2 al 9 de febrero para obtener más información sobre nuestra investigación. Para ver nuestra presencia completa en AAAI 2021, visite esta página.

Inventando lo que sigue.

Manténgase actualizado con los últimos anuncios, investigaciones y eventos de IBM Research a través de nuestro boletín.

punto_img

Información más reciente

punto_img