Logotipo de Zephyrnet

Cómo la multimodalidad hace que la alineación de LLM sea más desafiante – KDnuggets

Fecha:

Cómo la multimodalidad hace que la alineación del LLM sea más desafiante
Imagen de Gerd Altmann Desde Pixabay
 

Hace aproximadamente un mes, OpenAI anunció que ChatGPT ahora puede ver, oír y hablar. Esto significa que el modelo puede ayudarle con más tareas cotidianas. Por ejemplo, puedes subir una foto del contenido de tu nevera y pedir ideas de comidas para preparar con los ingredientes que tienes. O puedes fotografiar tu sala de estar y pedirle a ChatGPT consejos de arte y decoración. 

Esto es posible porque ChatGPT utiliza GPT-4 multimodal como modelo subyacente que puede aceptar tanto imágenes como entradas de texto. Sin embargo, las nuevas capacidades plantean nuevos desafíos para los equipos de alineación de modelos que analizaremos en este artículo. 

El término "alinear los LLM”se refiere a entrenar el modelo para que se comporte de acuerdo con las expectativas humanas. Esto a menudo significa comprender las instrucciones humanas y producir respuestas que sean útiles, precisas, seguras e imparciales. Para enseñar al modelo el comportamiento correcto, proporcionamos ejemplos que utilizan dos pasos: ajuste fino supervisado (SFT) y aprendizaje reforzado con retroalimentación humana (RLHF). 

El ajuste fino supervisado (SFT) enseña al modelo a seguir instrucciones específicas. En el caso de ChatGPT, esto significa proporcionar ejemplos de conversaciones. El modelo base subyacente, GPT-4, aún no puede hacer eso porque fue entrenado para predecir la siguiente palabra en una secuencia, no para responder preguntas tipo chatbot.

Si bien SFT le da a ChatGPT su naturaleza de “chatbot”, sus respuestas aún están lejos de ser perfectas. Por lo tanto, se aplica el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para mejorar la veracidad, inocuidad y utilidad de las respuestas. Básicamente, se le pide al algoritmo sintonizado con instrucciones que produzca varias respuestas que luego los humanos clasifican utilizando los criterios mencionados anteriormente. Esto permite que el algoritmo de recompensa aprenda las preferencias humanas y se utiliza para volver a entrenar el modelo SFT. 

Tras este paso, un modelo está alineado con los valores humanos, o al menos eso esperamos. Pero ¿por qué la multimodalidad hace que este proceso sea un paso más difícil? 

Cuando hablamos de alineación para LLM multimodales, debemos centrarnos en imágenes y texto. No cubre todas las nuevas capacidades de ChatGPT para ¨ver, oír y hablar¨ porque los dos últimos utilizan modelos de voz a texto y de texto a voz y no están conectados directamente al modelo LLM.

Entonces es aquí cuando las cosas se complican un poco más. Las imágenes y el texto juntos son más difíciles de interpretar en comparación con solo el ingreso de texto. Como resultado, ChatGPT-4 alucina con bastante frecuencia sobre objetos y personas que puede o no ver en las imágenes. 

Gary Marcus escribió un excelente artículo sobre alucinaciones multimodales que expone diferentes casos. Uno de los ejemplos muestra a ChatGPT leyendo la hora incorrectamente de una imagen. También tuvo problemas para contar sillas en una imagen de una cocina y no pudo reconocer a una persona que llevaba un reloj en una foto.

 

Cómo la multimodalidad hace que la alineación del LLM sea más desafiante
Imagen de https://twitter.com/anh_ng8
 

Las imágenes como entrada también abren una ventana para ataques adversarios. Pueden formar parte de ataques de inyección rápida o usarse para pasar instrucciones para hacer jailbreak al modelo y producir contenido dañino. 

Simon Willison documentó varios ataques de inyección de imágenes en este post. Uno de los ejemplos básicos implica cargar una imagen en ChatGPT que contiene nuevas instrucciones que desea que siga. Vea el ejemplo a continuación: 

 

Cómo la multimodalidad hace que la alineación del LLM sea más desafiante
Imagen de https://twitter.com/mn_google/status/1709639072858436064
 

De manera similar, el texto de la foto podría reemplazarse por instrucciones para que el modelo produzca discursos de odio o contenido dañino.

Entonces, ¿por qué es más difícil alinear los datos multimodales? Los modelos multimodales aún se encuentran en sus primeras etapas de desarrollo en comparación con los modelos de lenguaje unimodales. OpenAI no reveló detalles de cómo se logra la multimodalidad en GPT-4 pero está claro que le han proporcionado una gran cantidad de imágenes anotadas en texto. 

Los pares texto-imagen son más difíciles de obtener que los datos puramente textuales, hay menos conjuntos de datos seleccionados de este tipo y los ejemplos naturales son más difíciles de encontrar en Internet que el texto simple. 

La calidad de los pares imagen-texto presenta un desafío adicional. Una imagen con una etiqueta de texto de una frase no es tan valiosa como una imagen con una descripción detallada. Para tener esto último a menudo necesitamos anotadores humanos quienes siguen un conjunto de instrucciones cuidadosamente diseñadas para proporcionar las anotaciones del texto.

Además, entrenar el modelo para que siga las instrucciones requiere una cantidad suficiente de indicaciones reales para el usuario utilizando tanto imágenes como texto. Nuevamente, es difícil encontrar ejemplos orgánicos debido a la novedad del enfoque y los ejemplos de capacitación a menudo deben ser creados a pedido por humanos.

La alineación de modelos multimodales introduce cuestiones éticas que antes ni siquiera necesitaban ser consideradas. ¿Debería el modelo poder comentar sobre la apariencia, el género y la raza de las personas, o reconocer quiénes son? ¿Debería intentar adivinar la ubicación de las fotografías? Hay muchos más aspectos que alinear en comparación con los datos de texto únicamente.

La multimodalidad brinda nuevas posibilidades sobre cómo se puede utilizar el modelo, pero también presenta nuevos desafíos para los desarrolladores de modelos que necesitan garantizar la inocuidad, la veracidad y la utilidad de las respuestas. Con la multimodalidad, es necesario alinear una mayor cantidad de aspectos, y obtener buenos datos de capacitación para SFT y RLHF es más desafiante. Quienes deseen construir o perfeccionar modelos multimodales deben estar preparados para esos nuevos desafíos con flujos de desarrollo que incorporen retroalimentación humana de alta calidad.
 
 

Magdalena Konkiewicz es evangelista de datos en Toloka, una empresa global que respalda el desarrollo de IA rápido y escalable. Tiene una maestría en Inteligencia Artificial de la Universidad de Edimburgo y ha trabajado como ingeniera en PNL, desarrolladora y científica de datos para empresas en Europa y América. También ha participado en la enseñanza y tutoría de científicos de datos y contribuye periódicamente con publicaciones sobre ciencia de datos y aprendizaje automático.

punto_img

Información más reciente

punto_img