Logotipo de Zephyrnet

Google lanza sistemas Gemini AI en tres versiones

Fecha:

Google ha presentado Gemini, su clase más potente de modelos basados ​​en transformadores hasta el momento, que son capaces de procesar texto, imágenes, audio y vídeo. 

Gemini es un modelo multimodal con una ventana contextual de 32k que puede tomar diferentes tipos de datos como entrada y generar imágenes y texto como salida, y viene en tres tamaños diferentes. El más grande, Gemini Ultra, es la versión más poderosa diseñada para tareas complejas que requieren “razonamiento” o procesamiento de múltiples tipos de datos.

Gemini Pro es el modelo de tamaño mediano que ha sido optimizado para funcionar de manera más eficiente y realizar una gama más amplia de tareas. El Gemini Nano más pequeño se divide en dos, el Nano-1 tiene 1.8 millones de parámetros y el Nano-2 tiene 3.25 millones de parámetros y está diseñado para ejecutarse en dispositivos pequeños. Google no reveló cuántos parámetros contienen sus modelos más potentes Gemini Pro y Gemini Ultra. 

Entonces, ¿para qué utiliza Google Gemini? A partir de hoy, su chatbot de IA Bard se ha actualizado para ejecutar Gemini Pro, lo que significa que debería ser mejor para comprender y resumir texto que su versión anterior impulsada por el modelo de lenguaje PaLM 2 de Google. Las capacidades multimodales, sin embargo, aún no están listas y la versión Gemini-Pro de Bard sólo puede procesar y generar texto, y por ahora sólo admite inglés. 

Google también planea renovar algunos de sus productos de Búsqueda, Anuncios, Chrome y Duet AI con Gemini Pro, como Gmail, Google Docs y más en los próximos meses.

Mientras tanto, el último Pixel 8 Pro de Google ejecutará Gemini Nano para admitir dos funciones nuevas: resumir archivos de audio en su aplicación Grabadora y generar respuestas rápidas a mensajes de texto a través de la aplicación de teclado virtual Gboard. Google creará más funciones de inteligencia artificial además de Gemini Nano para sus teléfonos inteligentes, dijo, y planea abrir el software para permitir que los desarrolladores externos de Android también utilicen su servicio AICore.

AICore se ejecuta en Android 14 y brinda a los desarrolladores acceso al modelo a través de API de código abierto, y se encargará de aspectos como el tiempo de ejecución y la seguridad.

Desafortunadamente, aquellos que esperan probar Gemini Ultra tendrán que esperar un poco más. "Actualmente estamos completando exhaustivas comprobaciones de confianza y seguridad, incluida la formación de equipos rojos por parte de partes externas confiables, y refinando aún más el modelo mediante ajustes y refuerzo del aprendizaje a partir de comentarios humanos antes de que esté disponible ampliamente", dijo Google. explicado

The Chocolate Factory planea que Gemini Ultra esté disponible el próximo año y comenzará a experimentar con las capacidades del modelo con clientes y desarrolladores selectos antes de lanzar su chatbot Bard Advanced. 

Los proveedores que busquen crear herramientas de inteligencia artificial especializadas impulsadas por Gemini para aplicaciones específicas, como aquellos que trabajan en las industrias legal, de recursos humanos, médica o financiera, por ejemplo, podrán acceder a Gemini Pro como API en Google AI Studio o Google Cloud. Plataformas Vertex AI a partir del 13 de diciembre. 

Google frente a OpenAI

Google ha sido criticado por tardar en comercializar productos de inteligencia artificial a pesar de ser líder en investigación y desarrollo de esta tecnología.

OpenAI lanzó su aplicación web viral ChatGPT hace un año y ayudó a Microsoft a lanzar su propio chatbot AI Bing poco después, dejando que Google tuviera que ponerse al día. Ahora, las últimas versiones de ChatGPT y AI Bing con tecnología GPT-4 también pueden procesar imágenes. Gemini es el impulso de Google para seguir siendo competitivo. Entonces, ¿cómo se compara con los modelos de OpenAI?

La respuesta corta es: Gemini Pro parece ser un poco mejor que GPT-3.5, mientras que Gemini Ultra es un poco mejor que GPT-4, según algunas pruebas comparativas publicadas por Google.

"En términos generales, encontramos que el rendimiento de Gemini Pro supera a los modelos optimizados para inferencia como GPT-3.5 y funciona de manera comparable con varios de los modelos más capaces disponibles, y Gemini Ultra supera a todos los modelos actuales", dijo el equipo de Gemini en un documento. [PDF]

Los evaluadores compararon las habilidades de Gemini con varios modelos de OpenAI, Anthropic, X y Meta en diez pruebas diferentes. En su mayoría involucraban tareas basadas en texto, como resolver problemas matemáticos y de codificación Python, preguntas y respuestas para la comprensión de texto, comprobaciones de sentido común y traducción automática. 

Gemini Ultra funcionó mejor que GPT-4, Claude, Grok-1 y Llama-2 en ocho de cada diez tareas, mientras que Gemini Pro superó a GPT-3.5 y todos los demás modelos en siete de nueve tareas. Sin embargo, estos resultados de referencia deben tomarse con cautela.

Aunque las tecnologías de IA están mejorando, no son perfectas y sus comportamientos son impredecibles. Gemini todavía tiene las mismas limitaciones que todos los modelos de lenguaje grandes (LLM) a la hora de generar información objetivamente incorrecta, un proceso conocido como alucinación.

“A pesar de sus impresionantes capacidades, debemos tener en cuenta que existen limitaciones en el uso de los LLM. Existe una necesidad continua de investigación y desarrollo continuos sobre las 'alucinaciones' generadas por los LLM para garantizar que los resultados del modelo sean más confiables y verificables”, advirtió el equipo de Gemini.

"Los LLM también tienen dificultades con tareas que requieren habilidades de razonamiento de alto nivel, como comprensión causal, deducción lógica y razonamiento contrafactual, a pesar de que logran un desempeño impresionante en los exámenes de referencia".

Aun así, Google está invirtiendo fuertemente en la tecnología. Bajo la dirección del director ejecutivo, Sundar Pichai, el gigante de las búsquedas se ha reorientado como “una empresa que da prioridad a la IA” y ahora está luchando por comercializar sus esfuerzos y seguir siendo competitivo con la nueva ola de nuevas empresas de IA. 

“A casi ocho años de nuestra trayectoria como empresa que da prioridad a la IA, el ritmo del progreso no hace más que acelerarse: millones de personas están utilizando ahora la IA generativa en todos nuestros productos para hacer cosas que no podían ni siquiera hace un año, desde encontrar respuestas a más desde preguntas complejas hasta el uso de nuevas herramientas para colaborar y crear”, afirmó. dijo."

“Al mismo tiempo, los desarrolladores están utilizando nuestros modelos e infraestructura para crear nuevas aplicaciones de IA generativa, y las nuevas empresas y empresas de todo el mundo están creciendo con nuestras herramientas de IA. Este es un impulso increíble y, sin embargo, apenas estamos comenzando a arañar la superficie de lo que es posible”. ®

punto_img

Información más reciente

punto_img