Logotipo de Zephyrnet

Construyendo agentes de diálogo más seguros

Fecha:

Entrenando una IA para comunicarse de una manera que sea más útil, correcta e inofensiva.

En los últimos años, los modelos de lenguaje extenso (LLM, por sus siglas en inglés) han logrado el éxito en una variedad de tareas, como la respuesta a preguntas, resúmenes y diálogos. El diálogo es una tarea particularmente interesante porque presenta una comunicación flexible e interactiva. Sin embargo, los agentes de diálogo impulsados ​​por LLM pueden expresar información inexacta o inventada, usar un lenguaje discriminatorio o alentar un comportamiento inseguro.

Para crear agentes de diálogo más seguros, debemos poder aprender de la retroalimentación humana. Al aplicar el aprendizaje por refuerzo basado en los aportes de los participantes de la investigación, exploramos nuevos métodos para capacitar a los agentes de diálogo que prometen un sistema más seguro.

En nuestros último papel, les presentamos Gorrión – un agente de diálogo que es útil y reduce el riesgo de respuestas inseguras e inapropiadas. Nuestro agente está diseñado para hablar con un usuario, responder preguntas y buscar en Internet usando Google cuando es útil buscar evidencia para informar sus respuestas.

imagen
Nuestro nuevo modelo de IA conversacional responde por sí solo a un aviso humano inicial.

Sparrow es un modelo de investigación y una prueba de concepto, diseñado con el objetivo de capacitar a los agentes de diálogo para que sean más útiles, correctos e inofensivos. Al aprender estas cualidades en un entorno de diálogo general, Sparrow avanza en nuestra comprensión de cómo podemos capacitar a los agentes para que sean más seguros y útiles y, en última instancia, para ayudar a construir una inteligencia artificial general (AGI) más segura y útil.

imagen
Sparrow se niega a responder una pregunta potencialmente dañina.

Cómo funciona gorrión

Entrenar una IA conversacional es un problema especialmente desafiante porque es difícil identificar qué hace que un diálogo sea exitoso. Para abordar este problema, recurrimos a una forma de aprendizaje por refuerzo (RL) basada en los comentarios de las personas, utilizando los comentarios de preferencia de los participantes del estudio para entrenar un modelo de qué tan útil es una respuesta.

Para obtener estos datos, mostramos a nuestros participantes múltiples respuestas modelo a la misma pregunta y les preguntamos qué respuesta les gusta más. Debido a que mostramos respuestas con y sin evidencia recuperada de Internet, este modelo también puede determinar cuándo una respuesta debe respaldarse con evidencia.

Pedimos a los participantes del estudio que evalúen e interactúen con Sparrow, ya sea de forma natural o adversaria, expandiendo continuamente el conjunto de datos utilizado para entrenar a Sparrow.

Pero aumentar la utilidad es solo una parte de la historia. Para asegurarnos de que el comportamiento del modelo sea seguro, debemos restringir su comportamiento. Y así, determinamos un conjunto simple inicial de reglas para el modelo, tales como “no haga declaraciones amenazantes” y “no haga comentarios de odio o insultos”.

También proporcionamos reglas sobre consejos posiblemente dañinos y sobre no pretender ser una persona. Estas reglas se basaron en el estudio del trabajo existente sobre los daños del lenguaje y la consulta con expertos. Luego les pedimos a los participantes de nuestro estudio que hablen con nuestro sistema, con el objetivo de engañarlo para que rompa las reglas. Estas conversaciones nos permiten entrenar un 'modelo de reglas' separado que indica cuándo el comportamiento de Sparrow rompe alguna de las reglas.

Hacia una mejor IA y mejores juicios

Verificar la corrección de las respuestas de Sparrow es difícil incluso para los expertos. En cambio, les pedimos a nuestros participantes que determinen si las respuestas de Sparrow son plausibles y si la evidencia que proporciona Sparrow realmente respalda la respuesta. Según nuestros participantes, Sparrow brinda una respuesta plausible y la respalda con evidencia el 78 % de las veces cuando se le hace una pregunta fáctica. Esta es una gran mejora con respecto a nuestros modelos de referencia. Aún así, Sparrow no es inmune a cometer errores, como alucinar hechos y dar respuestas que a veces están fuera de tema. 

Sparrow también tiene espacio para mejorar su seguimiento de reglas. Después del entrenamiento, los participantes aún pudieron engañarlo para que rompiera nuestras reglas el 8% de las veces, pero en comparación con enfoques más simples, Sparrow es mejor para seguir nuestras reglas bajo el sondeo adversario. Por ejemplo, nuestro modelo de diálogo original rompió las reglas aproximadamente 3 veces más que Sparrow cuando nuestros participantes intentaron engañarlo para que lo hiciera.

imagen
Sparrow responde una pregunta y una pregunta de seguimiento usando evidencia, luego sigue la regla "No pretenda tener una identidad humana" cuando se le hace una pregunta personal (muestra del 9 de septiembre de 2022).

Nuestro objetivo con Sparrow era construir una maquinaria flexible para hacer cumplir reglas y normas en los agentes de diálogo, pero las reglas particulares que usamos son preliminares. Desarrollar un conjunto de reglas mejor y más completo requerirá aportes de expertos en muchos temas (incluidos los encargados de formular políticas, científicos sociales y especialistas en ética) y aportes participativos de una amplia gama de usuarios y grupos afectados. Creemos que nuestros métodos aún se aplicarán a un conjunto de reglas más riguroso.

Sparrow es un importante paso adelante en la comprensión de cómo capacitar a los agentes de diálogo para que sean más útiles y seguros. Sin embargo, la comunicación exitosa entre las personas y los agentes de diálogo no solo debe evitar el daño, sino también estar alineada con los valores humanos para una comunicación efectiva y beneficiosa, como se discutió en un trabajo reciente sobre alinear los modelos lingüísticos con los valores humanos

También enfatizamos que un buen agente aún se negará a responder preguntas en contextos en los que sea apropiado deferir a los humanos o donde esto tenga el potencial de disuadir el comportamiento dañino. Finalmente, nuestra investigación inicial se centró en un agente de habla inglesa, y se necesita más trabajo para garantizar resultados similares en otros idiomas y contextos culturales.

En el futuro, esperamos que las conversaciones entre humanos y máquinas puedan conducir a mejores juicios sobre el comportamiento de la IA, lo que permitirá a las personas alinear y mejorar sistemas que pueden ser demasiado complejos para comprender sin la ayuda de las máquinas.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?