Logotipo de Zephyrnet

ChatGPT habla de su camino a través de Wharton MBA, exámenes médicos

Fecha:

El software de chat de OpenAI, ChatGPT, si se soltara en el mundo, obtendría entre una B y una B- en el examen de Gestión de Operaciones de la escuela de negocios de Wharton, y se acercaría o superaría la puntuación necesaria para aprobar el Examen de Licencias Médicas de EE. UU. (USMLE).

Si bien esto puede decir más sobre la naturaleza estática y centrada en documentos del material de prueba que sobre la destreza intelectual del software, es un motivo de preocupación e interés para los educadores y casi todos los demás que viven en la era de la automatización.

Los académicos se han preocupado de que los sistemas de asistencia como ChatGPT y GitHub Copiloto (basado en un modelo OpenAI llamado Codex) requerirá que los maestros reevalúen cómo enseñan y califican los exámenes porque la tecnología de asistencia basada en el aprendizaje automático se ha vuelto muy capaz.

En entornos educativos, los consejos de IA se están volviendo comunes: The Stanford Daily acaba de reportaron, “un gran número de estudiantes ya han utilizado ChatGPT en sus exámenes finales”. Se estima que el 17 por ciento de los estudiantes, según una encuesta anónima de 4,497 ​​encuestados, dijo que había usado ChatGPT para ayudar en las tareas y exámenes del trimestre de otoño, y el 5 por ciento dijo que había enviado material directamente desde ChatGPT con poca o ninguna edición, lo que presumiblemente es una violación del código de honor.

Por separado, Christian Terwiesch, profesor de la Escuela Wharton de la Universidad de Pensilvania, y un grupo de investigadores médicos afiliados en su mayoría a Ansible Health, decidieron poner ChatGPT, un posiblemente asesor automatizado amoral y objetado de hecho sistema experto, a prueba.

Tanto Terwiesch como los cerebritos de Ansible Health dejaron en claro que ChatGPT tiene limitaciones y hace las cosas mal. En general, le dieron calificaciones medias, pero dejaron en claro que esperan que los sistemas de asistencia de IA encuentren un lugar en la enseñanza y en otros sectores.

El modelo, después de todo, ha sido entrenado en innumerables piezas de escritura hechas por humanos, por lo que su capacidad para adivinar una respuesta satisfactoria a una pregunta de todo ese conocimiento inhalado y factoides no es inesperada.

“Primero, hace un trabajo increíble en la gestión de operaciones básicas y las preguntas de análisis de procesos, incluidas las que se basan en estudios de casos”, dijo Terwiesch en su papel. “No solo las respuestas son correctas, sino que las explicaciones son excelentes.”

Dicho esto, observó que ChatGPT comete errores matemáticos simples y falla en preguntas de análisis de procesos avanzados. Sin embargo, el modelo de IA responde a las sugerencias de las personas sobre cómo mejorar: puede corregirse a sí mismo con éxito cuando recibe sugerencias de un experto humano.

La guía humana también ha servido como fuente de información maliciosa, como lo demuestra El chatbot Tay de Microsoft y por investigación posterior.

médico, médico

El grupo de investigación médica que escribió “Rendimiento de ChatGPT en USMLE: Potencial para la educación médica asistida por IA utilizando modelos de lenguaje grandes” incluye a “ChatGPT” como coautor.

“ChatGPT contribuyó a la redacción de varias secciones de este manuscrito”, afirman los autores biológicos en su artículo.

Otras afiliaciones organizacionales de los autores incluyen: Hospital General de Massachusetts, Escuela de Medicina de Harvard, en Boston, Massachusetts; Facultad de Medicina Warren Alpert, Universidad de Brown, en Providence, Rhode Island; y el Departamento de Educación Médica de UWorld, LLC, una empresa de aprendizaje electrónico sobre salud con sede en Dallas, Texas.

Los autores, Tiffany Kung, Morgan Cheatham, ChatGPT, Arielle Medenilla, Czarina Silos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo y Victor Tseng, llegaron a una conclusión similar a la de Terwiesch de Wharton. . Específicamente, encontraron que ChatGPT se desempeñó aceptablemente (por encima del umbral de aprobación variable de alrededor del 60 por ciento) en el examen USMLE, si se le otorgaba el beneficio de las respuestas indeterminadas. Y esperan que los modelos de lenguaje extenso (LLM, por sus siglas en inglés) desempeñen un papel cada vez mayor en la educación médica y en la toma de decisiones clínicas.

"ChatGPT produce una precisión moderada que se acerca al rendimiento de aprobación en USMLE", afirman los autores en su artículo. “Los elementos del examen se codificaron primero como preguntas abiertas con indicaciones de introducción variables. Este formato de entrada simula un patrón de consulta de usuario natural y gratuito. Con las respuestas indeterminadas censuradas/incluidas, la precisión de ChatGPT para los pasos 1, 2CK y 3 del USMLE fue del 68.0 %/42.9 %, 58.3 %/51.4 % y 62.4 %/55.7 %, respectivamente”.

Describir el desempeño de ChatGPT como "casi superando" es una forma generosa de expresarlo, particularmente cuando se le da crédito a la IA por respuestas indeterminadas. Llegar al consultorio de un médico y ver un diploma que anuncia una calificación de D podría provocar un poco más de preocupación entre los pacientes.

Pero los investigadores sostienen que las cosas que ChatGPT hizo bien coincidieron estrechamente con las respuestas aceptadas y que el modelo de IA ha mejorado notablemente, ya que meses antes logró una tasa de éxito de solo alrededor del 36.7 por ciento.

Curiosamente, observaron que ChatGPT funcionó mejor que PubMedGPT, un LLM basado únicamente en datos biomédicos que logró una precisión de solo alrededor del 50.8 por ciento (basado en datos no publicados).

"Especulamos que la capacitación específica de dominio puede haber creado una mayor ambivalencia en el modelo PubMedGPT, ya que absorbe texto del mundo real del discurso académico en curso que tiende a ser inconcluso, contradictorio o muy conservador o evasivo en su lenguaje", afirman los autores. .

Esencialmente, el material menos científico y más obstinado que se incluyó en la capacitación de ChatGPT, como los folletos de explicación de enfermedades orientados al paciente, parece haber hecho que ChatGPT sea más obstinado.

“A medida que la IA se vuelve cada vez más competente, pronto se volverá omnipresente, transformando la medicina clínica en todos los sectores de la atención médica”, concluyen los autores, y agregan que los médicos asociados con AnsibleHealth han estado usando ChatGPT en sus flujos de trabajo y han informado una reducción del 33 por ciento en el tiempo. necesarios para completar la documentación y las tareas indirectas de atención al paciente.

Esto quizás explique la decisión de Microsoft. para canalizar miles de millones en OpenAI para su futuro software.

La utilidad de ChatGPT en un entorno educativo, a pesar de que a menudo es incorrecto, se subrayó en un del blog publicado el domingo por Thomas Rid, profesor de estudios estratégicos y director fundador del Instituto Alperovich de Estudios de Ciberseguridad.

Rid describe un curso reciente de análisis de malware e ingeniería inversa de cinco días impartido por Juan Andres Guerrero-Saade.

“Cinco días después ya no tenía ninguna duda: esto transformará la educación superior”, dijo Rid. “Yo era uno de los estudiantes. Y me sorprendió lo que el aprendizaje automático pudo hacer por nosotros, en tiempo real. Y digo esto como alguien que ha sido un endurecido escéptico de la exageración de la inteligencia artificial durante muchos años. Tenga en cuenta que no dije transformación 'probable'. Transformará la educación superior”.

Guerrero Saade, en un hilo de Twitter, reconoce que ChatGPT se equivocó, pero insiste en que la herramienta ayudó a los estudiantes a encontrar mejores respuestas. Él sugiere que funcione como un asistente de enseñanza personal para cada estudiante.

“El alarmismo en torno a la IA (o las expectativas desmesuradas de resultados perfectos) nublan el reconocimiento de esta asombrosa utilidad de LLM: como un asistente capaz de fusionar rápidamente información (correcta o incorrecta) con extrema relevancia para una inteligencia más exigente (el usuario) con quien trabajar, ” escribió.

Rid argumenta que si bien es necesario abordar las preocupaciones sobre la IA como mecanismo para el plagio y el engaño en la educación, la conversación más importante tiene que ver con cómo las herramientas de IA pueden mejorar los resultados educativos. ®

punto_img

Información más reciente

punto_img