Logotipo de Zephyrnet

Claude 3 Opus ocupa el primer lugar en el ranking de chatbots

Fecha:

El modelo de IA de próxima generación de Anthropic, Claude 3 Opus, ha tomado la primera posición en la clasificación de Chatbot Arena, empujando al GPT-4 de OpenAI al segundo mejor lugar.

Desde su lanzamiento el año pasado, esta es la primera vez que el modelo Claude 3 Opus encabeza la lista Chatbot Arena, que tiene las tres versiones de Claud 3 clasificadas entre los 10 primeros.

Los modelos Claude 3 dejan huella

El estadio de chatbots de LMSYS Las clasificaciones muestran que Claude 3 Sonnet ocupó la cuarta posición junto con Gemini Pro, mientras que Claude 3 Haiku, que se lanzó este año, ocupó el sexto lugar junto con una versión anterior de GPT-4.

Aunque Claude 3 Haiku Puede que no sea tan inteligente como Sonnet u Opus, el modelo es más rápido y significativamente más barato, pero es “tan bueno como los modelos mucho más grandes en pruebas a ciegas”, como revelan los resultados del concurso.

“Claude 3 Haiku ha impresionado a todos, ¡incluso alcanzó el nivel GPT-4 según nuestra preferencia de usuario! Su velocidad, capacidades y duración del contexto no tienen comparación actualmente en el mercado”, explicó LMSYS.

Según Tom's Guide, lo que hace que Haiku sea más impresionante es que es el "modelo de tamaño local comparable al Gemini Nano". Puede leer y procesar investigaciones densas en información documentos en menos de tres segundos.

El modelo está logrando excelentes resultados incluso sin la escala de parámetros de más de un billón de Opus o cualquiera de los modelos de clase GPT-4.

¿Podría ser este un éxito de corta duración?

A pesar de haber sido empujadas a la segunda posición, las versiones GPT-4 de OpenAI aún dominaban el top 10 de la lista con cuatro versiones.

Según la La guía de Tom, las versiones GPT-4 de OpenAI en sus diversas formas han ocupado el primer lugar "durante tanto tiempo que cualquier otro modelo que se acerque a sus puntos de referencia se conoce como modelo de clase GPT-4".

Dado que se espera un GPT-5 “notablemente diferente” en algún momento de este año, es posible que Anthropic no mantenga esa posición por mucho tiempo, ya que la brecha en las puntuaciones entre Claude 3 Opus y GPT-4 es estrecha.

Aunque OpenAI se ha mantenido callado sobre el lanzamiento real de su GPT-5, el mercado espera mucho su lanzamiento. Según se informa, el modelo está pasando por algunos “rigurosas pruebas de seguridad”Y ataques simulados que son cruciales antes del lanzamiento.

El estadio de chatbots de LMSYS

Esta clasificación se basa en votos humanos, a diferencia de otras formas de evaluación comparativa de modelos de IA. Con este, las personas clasifican a ciegas el resultado de dos modelos diferentes según el mismo mensaje.

Chatbot Arena está dirigido por LMSYS y presenta una gran cantidad de modelos de lenguajes grandes (LLM) que luchan en "batallas aleatorias anónimas".

Se lanzó por primera vez en mayo pasado y ha recogido más de 400,000 votos de usuarios que tienen modelos de IA de Google, Anthropic y OpenAI.

“LMSYS Chatbot Arena es una plataforma abierta de colaboración colectiva para evaluaciones de LLM. Hemos recopilado más de 400,000 votos de preferencia humana para clasificar a los LLM con el sistema de clasificación Elo”, dijo LMSYS.

El sistema Elo se utiliza principalmente en juegos como el ajedrez para evaluar la habilidad relativa de un jugador. Pero en este caso, la clasificación se aplica al chatbot y “no al humano que usa el modelo”.

Lea también: Microsoft presenta las 'primeras' Surface PC con el botón Copilot AI

Las deficiencias

Al ranking de Chatbot Arena no le faltan fallos. Según Tom's Guide, no incluye todos los modelos o versiones de los modelos incluidos, mientras que los usuarios a veces tienen malas experiencias con GPT-4 que no se carga. También puede favorecer algunos modelos que tienen acceso a Internet en vivo, por ejemplo Google Gemini Pro.

Mientras que otros modelos como los de la startup francesa de IA Mistral y empresas chinas como Alibaba recientemente han logrado llegar a los primeros lugares en el campo, además de los modelos de código abierto, el campo todavía carece de algunos modelos de alto perfil. Por ejemplo, faltan modelos como el Gemini Pro 1.5 de Google.

punto_img

Información más reciente

punto_img