El modelo de IA de próxima generación de Anthropic, Claude 3 Opus, ha tomado la primera posición en la clasificación de Chatbot Arena, empujando al GPT-4 de OpenAI al segundo mejor lugar.
Desde su lanzamiento el año pasado, esta es la primera vez que el modelo Claude 3 Opus encabeza la lista Chatbot Arena, que tiene las tres versiones de Claud 3 clasificadas entre los 10 primeros.
Los modelos Claude 3 dejan huella
El estadio de chatbots de LMSYS Las clasificaciones muestran que Claude 3 Sonnet ocupó la cuarta posición junto con Gemini Pro, mientras que Claude 3 Haiku, que se lanzó este año, ocupó el sexto lugar junto con una versión anterior de GPT-4.
Aunque Claude 3 Haiku Puede que no sea tan inteligente como Sonnet u Opus, el modelo es más rápido y significativamente más barato, pero es “tan bueno como los modelos mucho más grandes en pruebas a ciegas”, como revelan los resultados del concurso.
“Claude 3 Haiku ha impresionado a todos, ¡incluso alcanzó el nivel GPT-4 según nuestra preferencia de usuario! Su velocidad, capacidades y duración del contexto no tienen comparación actualmente en el mercado”, explicó LMSYS.
Según Tom's Guide, lo que hace que Haiku sea más impresionante es que es el "modelo de tamaño local comparable al Gemini Nano". Puede leer y procesar investigaciones densas en información documentos en menos de tres segundos.
El modelo está logrando excelentes resultados incluso sin la escala de parámetros de más de un billón de Opus o cualquiera de los modelos de clase GPT-4.
[Actualización de la arena]
¡Más de 70 nuevos votos de Arena🗳️ están disponibles!
Claude-3 Haiku ha impresionado a todos, ¡incluso alcanzó el nivel GPT-4 según nuestra preferencia de usuario! Su velocidad, capacidades y duración del contexto no tienen comparación ahora en el mercado🔥
Congrats @AntrópicoAI ¡Sobre el increíble lanzamiento de Claude-3!
Más emocionante… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Marzo 26, 2024
¿Podría ser este un éxito de corta duración?
A pesar de haber sido empujadas a la segunda posición, las versiones GPT-4 de OpenAI aún dominaban el top 10 de la lista con cuatro versiones.
Según la La guía de Tom, las versiones GPT-4 de OpenAI en sus diversas formas han ocupado el primer lugar "durante tanto tiempo que cualquier otro modelo que se acerque a sus puntos de referencia se conoce como modelo de clase GPT-4".
Dado que se espera un GPT-5 “notablemente diferente” en algún momento de este año, es posible que Anthropic no mantenga esa posición por mucho tiempo, ya que la brecha en las puntuaciones entre Claude 3 Opus y GPT-4 es estrecha.
Aunque OpenAI se ha mantenido callado sobre el lanzamiento real de su GPT-5, el mercado espera mucho su lanzamiento. Según se informa, el modelo está pasando por algunos “rigurosas pruebas de seguridad”Y ataques simulados que son cruciales antes del lanzamiento.
El estadio de chatbots de LMSYS
Esta clasificación se basa en votos humanos, a diferencia de otras formas de evaluación comparativa de modelos de IA. Con este, las personas clasifican a ciegas el resultado de dos modelos diferentes según el mismo mensaje.
Chatbot Arena está dirigido por LMSYS y presenta una gran cantidad de modelos de lenguajes grandes (LLM) que luchan en "batallas aleatorias anónimas".
Se lanzó por primera vez en mayo pasado y ha recogido más de 400,000 votos de usuarios que tienen modelos de IA de Google, Anthropic y OpenAI.
“LMSYS Chatbot Arena es una plataforma abierta de colaboración colectiva para evaluaciones de LLM. Hemos recopilado más de 400,000 votos de preferencia humana para clasificar a los LLM con el sistema de clasificación Elo”, dijo LMSYS.
El sistema Elo se utiliza principalmente en juegos como el ajedrez para evaluar la habilidad relativa de un jugador. Pero en este caso, la clasificación se aplica al chatbot y “no al humano que usa el modelo”.
Lea también: Microsoft presenta las 'primeras' Surface PC con el botón Copilot AI
Las deficiencias
Al ranking de Chatbot Arena no le faltan fallos. Según Tom's Guide, no incluye todos los modelos o versiones de los modelos incluidos, mientras que los usuarios a veces tienen malas experiencias con GPT-4 que no se carga. También puede favorecer algunos modelos que tienen acceso a Internet en vivo, por ejemplo Google Gemini Pro.
Mientras que otros modelos como los de la startup francesa de IA Mistral y empresas chinas como Alibaba recientemente han logrado llegar a los primeros lugares en el campo, además de los modelos de código abierto, el campo todavía carece de algunos modelos de alto perfil. Por ejemplo, faltan modelos como el Gemini Pro 1.5 de Google.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://metanews.com/claude-3-opus-takes-top-spot-on-chatbot-rankings/