Los grandes modelos de lenguaje pueden mentirle: este profesor quiere que sepa cuándo lo hacen - Mass Tech Leadership Council

Habla con casi cualquier persona (es decir, con cualquier ser humano) y en tu conversación encontrarás lo que Malihe Alikhani llama “fricciones saludables”, momentos en los que tu objetivo en la conversación choca con el de tu pareja, momentos que requieren aclaraciones, producen confusión o conducen al desacuerdo.

No es así con los modelos de lenguaje grandes.

Alikhani, profesor asistente en la Facultad de Ciencias de la Computación Khoury de la Universidad Northeastern, dice que los modelos de lenguaje grandes como ChatGPT tienen un serio problema con la certeza.

El nuevo proyecto de Alikhani, llamado Friction for Accountability in Conversational Transactions (FACT), es una colaboración entre la Universidad Northeastern, la Universidad de Illinois Urbana-Champaign y la Universidad del Sur de California.

Financiado a través de una subvención de Exploración de Inteligencia Artificial a través de la Agencia de Proyectos de Investigación Avanzada de Defensa, el proyecto FACT tiene como objetivo desarrollar herramientas de inteligencia artificial más transparentes y equitativas.

“Una de las cosas que hace que la comunicación humana sea una herramienta fructífera”, dice Alikhani, “es el hecho de que representamos nuestra incertidumbre en nuestro discurso, en nuestro tono. Lo ponemos en nuestra expresión facial”.

Las sanas fricciones que surgen de la incertidumbre en la comunicación entre humanos ayudan a mantener una diversidad de opiniones y puntos de vista, continúa.

Pero los grandes modelos de lenguaje (o LLM) no están interesados en expresar su incertidumbre, lo que resulta en lo que Alikhani llama "comportamientos aduladores". Los modelos de lenguaje grande “quieren maximizar la satisfacción” de su usuario, dice, y “nunca introducen ninguna fricción en la conversación, ya sea que [el modelo] tenga confianza” en sus declaraciones o no.

En los modelos de lenguaje grandes surgen problemas adicionales debido a su tendencia a alucinar. Los LLM “inventan hechos. Son muy buenos para persuadir a la gente de hechos inventados”.

A pesar de estos problemas, Alikhani también dice que los humanos son propensos a confiar demasiado en los "hechos" generados por estos modelos de inteligencia artificial, que "pueden inventar hechos para hacerte feliz".

Parte de lo que contribuye a que los usuarios dependan excesivamente de los LLM son sus “comportamientos humanos”, dice. "Eso manipulará nuestra cognición".

Los modelos de lenguaje grandes también parecen producir sus respuestas instantáneamente, otro factor que hace que los usuarios asuman lo correcto. “Es difícil para nosotros, los científicos de IA, decirle a la gente: 'Sí, es coherente'. Sí, es rápido. Sí, es sintonizar con tu estilo. Pero alucina'”, dice Alikhani.

Con su nueva subvención, Alikhani y su equipo diseñarán herramientas que demuestren los niveles de certeza que tiene un LLM sobre una declaración que hace e introducirán fricciones saludables en las conversaciones entre humanos y IA.

"¿Cómo podemos predecir y verbalizar la confianza del sistema?" pregunta Alikhani. Si un modelo de IA tiene “sólo un 2% de confianza, debería externalizarlo”.

"Uno de los principales objetivos de la investigación es modelar la incertidumbre, externalizar la incertidumbre" y enseñar a los estudiantes de maestría en maestría cómo retratar esa incertidumbre dentro de una conversación entre humanos y IA. Esto podría aparecer en la interfaz de un usuario como una puntuación percentil de la certeza del modelo, o el modelo podría reflejar la incertidumbre en sus respuestas de una manera más humana.

Por ejemplo, Alikhani imagina una situación en la que un paciente podría hacerle a un modelo de lenguaje grande una pregunta sobre su salud. La generación actual de LLM intentará proporcionar una respuesta, incluso si esa respuesta puede resultar peligrosa. Alikhani espera construir modelos que puedan decir: “No lo sé. Deberías llamar a tu enfermera'”.

"La solidez es clave para la rendición de cuentas en la IA", afirma Alikhani. Por el momento, es común que un LLM responda con una respuesta a una consulta en el momento de realizarla y una respuesta completamente diferente unos minutos después.

Cuando se trata de diseñar una IA que sea segura y responsable, los sistemas de IA anteriores que podrían ayudar con tareas simples "no tenían acceso a muchos otros conjuntos de datos", dice Alikhani, "y no podían decir cosas que pudieran ser peligrosas". , porque no estaba en sus datos”.

Exactamente lo que esos conjuntos de datos incluyen (o excluyen) es clave para superar los sesgos que muestran los LLM hacia "los sesgos de género, pero también los sesgos más sutiles, como los grupos dentro versus fuera de los grupos y diferentes sesgos cognitivos que se reflejan en los modelos [de lenguaje grande]".

Ahora, Alikhani espera diseñar modelos que atiendan a personas con “diferentes posibilidades y preferencias”, afirma.

"No queremos simplemente seguir construyendo sistemas para la población de la que tenemos datos, sino que pensamos en a quién estamos dejando atrás y cómo podemos detener esta enorme brecha de desigualdad en lugar de empeorarla". ella pregunta. "El objetivo de mi laboratorio es avanzar en esa dirección".

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://www.mtlc.co/large-language-models-can-lie-to-you-this-professor-wants-you-to-know-when-they-do/

Inteligencia de datos generativa

Los modelos de lenguaje grandes pueden mentirle: este profesor quiere que sepa cuándo lo hacen – Mass Tech Leadership Council

Blog sobre automatización inteligente de nanoredes e inteligencia artificial de procesos empresariales

Blog sobre automatización inteligente de nanoredes e inteligencia artificial de procesos empresariales

Información más reciente

Blog sobre automatización inteligente de nanoredes e inteligencia artificial de procesos empresariales

café vc

vidacienciav

café vc

café vc

vidacienciav