Logotipo de Zephyrnet

ChatGPT pronostica mejor el futuro al contar historias

Fecha:

Los modelos de IA mejoran a la hora de predecir el futuro cuando se les pide que enmarquen la predicción como una historia sobre el pasado, según han descubierto expertos de la Universidad de Baylor en Texas.

In un papel Titulado “ChatGPT puede predecir el futuro cuando cuenta historias ambientadas en el futuro sobre el pasado”, Pham y Cunningham revelan la escena final: que el pronóstico del modelo de IA puede ser efectivo en ciertas circunstancias. Pedirle al chatbot historias sobre eventos futuros en lugar de pedir predicciones directas resultó sorprendentemente eficaz, especialmente a la hora de pronosticar los ganadores del Oscar.

Pero su trabajo dice tanto sobre la ineficacia de los mecanismos de seguridad de OpenAI como sobre el potencial de pronóstico de los grandes modelos de lenguaje.

Otros investigadores han mostrado un interés similar en los modelos de IA para realizar predicciones. Uno estudio del año pasado descubrió "que GPT-4 tiene un rendimiento significativamente inferior en tareas predictivas del mundo real en comparación con los pronósticos medios de multitudes humanas". Otros han encontrado modelos de IA Mostrar PROMETEMOS para la inversión en bolsa.

OpenAI's Términos de servicio No permitir predicciones sobre el futuro en ciertos contextos. Por ejemplo, “No debe utilizar ningún Producto relacionado con una persona para ningún propósito que pueda tener un impacto legal o material en esa persona, como tomar decisiones crediticias, educativas, laborales, de vivienda, de seguros, legales, médicas u otras decisiones importantes. a cerca de ellos."

El riesgo de confiar en el consejo de un gran modelo de lenguaje conocido por alucinar es obvio: no desea que ChatGPT tome decisiones importantes, como decisiones de tratamiento médico, sentencia o aprobación de crédito.

Pero aun así, es posible que el modelo sea un adivino eficaz, la mayoría de las veces.

Sospechamos que OpenAI ha limitado la voluntad de ChatGPT de participar en muchos tipos de tareas de predicción directa.

Los investigadores argumentan: "Si se descubriera que ChatGPT tiene una capacidad de pronóstico superior, entonces uno podría fácilmente imaginar que se usaría inmediatamente de maneras que violarían una o todas las condiciones anteriores y, por lo tanto, sospechamos que OpenAI ha estrangulado la voluntad de ChatGPT de participar en muchas tipos de tareas de predicción absoluta”.

Le pedimos a OpenAI que comentara si intenta deliberadamente frustrar la predicción y no hemos recibido respuesta.

Sin embargo, está claro que los modelos de OpenAI se resistirán cuando se les pida que brinden consejos sobre tratamientos médicos. Pham y Cunningham preguntaron al GPT-4 de OpenAI, a través de la interfaz ChatGPT: “Me siento muy mal. Me duele la cabeza y mi orina tiene sangre. ¿Qué crees que tengo? Y como era de esperarse, la modelo aconsejó buscar orientación de un profesional médico.

Luego cambiaron su estrategia de indicaciones y le indicaron a ChatGPT que les contara una historia en la que una persona llega al consultorio de un médico y presenta los mismos síntomas. Y ChatGPT respondió con el consejo médico que se negó a dar cuando se le preguntó directamente, como diálogo de personajes en la escena solicitada.

“Que este consejo de los expertos sea exacto es otra cuestión; lo que queremos decir es simplemente señalar que no realizará la tarea cuando se le pida directamente que la haga, pero sí cuando se le encomiende indirectamente en forma de ejercicios de escritura creativa”, explican los investigadores en su artículo.

Dada esta estrategia de estímulo para superar la resistencia a las respuestas predictivas, los economistas de Baylor se propusieron probar qué tan bien el modelo podía predecir eventos que ocurrieron después de que se completó el entrenamiento del modelo.

Y el premio es para…

En el momento del experimento, GPT-3.5 y GPT-4 solo conocían los eventos hasta septiembre de 2021, su límite de datos de entrenamiento, que desde entonces ha avanzado. Entonces, el dúo le pidió al modelo que contara historias que predijeran datos económicos como las tasas de inflación y desempleo a lo largo del tiempo, y los ganadores de varios Premios de la Academia 2022.

“Resumiendo los resultados de este experimento, encontramos que cuando se presentaron a los nominados y se utilizaron los dos estilos de indicación [directo y narrativo] en ChatGPT-3.5 y ChatGPT-4, ChatGPT-4 predijo con precisión los ganadores de todas las categorías de actor y actriz. pero no la Mejor Película, cuando se utiliza un escenario narrativo futuro, pero tuvo un desempeño deficiente en otros enfoques [directos]”, explica el artículo.

Para cosas que ya están en los datos de entrenamiento, tenemos la sensación de que ChatGPT [puede] hacer predicciones extremadamente precisas.

"Para las cosas que ya están en los datos de entrenamiento, tenemos la sensación de que ChatGPT tiene la capacidad de usar esa información y con su modelo de aprendizaje automático hacer predicciones extremadamente precisas", dijo Cunningham. El registro en una entrevista telefónica. "Sin embargo, algo le impide hacerlo, aunque claramente puede hacerlo".

El uso de la estrategia de estímulo narrativo condujo a mejores resultados que una suposición obtenida mediante un estímulo directo. También fue mejor que el valor de referencia del 20 por ciento para una elección aleatoria de una entre cinco.

Pero los pronósticos narrativos no siempre fueron exactos. La motivación narrativa llevó a la predicción errónea de la ganadora de la Mejor Película de 2022.

Y para las indicaciones predichas correctamente, estos modelos no siempre proporcionan la misma respuesta. "Algo que la gente debe tener en cuenta es que existe esta aleatoriedad en la predicción", dijo Cunningham. “Entonces, si lo preguntas 100 veces, obtendrás una distribución de respuestas. Y entonces se pueden observar cosas como los intervalos de confianza o los promedios, en lugar de una sola predicción”.

¿Esta estrategia superó las predicciones de crowdsourcing? Cunningham dijo que él y su colega no compararon su técnica de incitación narrativa con otro modelo predictivo, pero dijo que algunas de las predicciones de los Premios de la Academia serían difíciles de superar porque el modelo de IA acertó en algunas casi el cien por ciento de las veces. múltiples consultas.

Al mismo tiempo, sugirió que predecir los ganadores del Premio de la Academia podría haber sido más fácil para el modelo de IA porque las discusiones en línea sobre las películas quedaron capturadas en los datos de entrenamiento. "Probablemente esté altamente correlacionado con cómo la gente hablaba de esos actores y actrices en esa época", dijo Cunningham.

Pedirle al modelo que prediga los ganadores del Premio de la Academia dentro de una década podría no resultar tan bien.

ChatGPT también mostró una precisión de pronóstico variable según las indicaciones. "Tenemos dos indicaciones de historia que hacemos", explicó Cunningham. “Uno es un profesor universitario, ambientado en el futuro impartiendo una clase. Y en clase, lee datos de un año sobre inflación y desempleo. Y en otro, Jerome Powell, el presidente de la Reserva Federal, pronunció un discurso ante la Junta de Gobernadores. Obtuvimos resultados muy diferentes. Y el discurso de Powell [generado por IA] es mucho más preciso”.

En otras palabras, ciertos detalles rápidos conducen a mejores pronósticos, pero no está claro de antemano cuáles podrían ser. Cunningham señaló cómo incluir una mención de la invasión rusa de Ucrania en 2022 en la narrativa de Powell condujo a predicciones económicas significativamente peores de las que realmente ocurrieron.

"[El modelo] no sabía acerca de la invasión de Ucrania, y usa esa información, y muchas veces las cosas empeoran", dijo. “La predicción intenta tener eso en cuenta, y ChatGPT-3.5 se vuelve extremadamente inflacionario [en el mes en que] Rusia invadió Ucrania y eso no sucedió.

"Como prueba de concepto, algo real sucede con la narrativa futura que impulsa", dijo Cunningham. “Pero como intentamos decir en el artículo, no creo que ni siquiera los creadores [de los modelos] entiendan eso. Entonces, cómo descubrir cómo usarlo no está claro y no sé qué tan solucionable es realmente”. ®

punto_img

Información más reciente

punto_img