Google Gemini 2.0 Flash llega con conversación en tiempo real y análisis de imágenes

Como
Gustó

Fecha:

Google lanzó el miércoles Gemini 2.0 Flash, la última incorporación a su línea de modelos de IA, con la esperanza de que los desarrolladores creen aplicaciones de agente en AI Studio y Vertex AI.

Los agentes de IA están de moda actualmente entre los creadores de modelos de aprendizaje automático porque se presume que existe un mercado para mano de obra derivada de software que sea capaz, compatible y barata, cualidades que aún no son consistentemente evidentes en los modelos de IA actuales.

Los agentes de IA consisten en modelos de IA que pueden realizar tareas de varios pasos, siguiendo instrucciones complejas, generalmente en conjunto con fuentes de datos y herramientas externas. La propuesta a los accionistas de las empresas centradas en la IA es algo así: los clientes podrán pedirle a nuestro agente de IA que planifique unas vacaciones y... Inserte aquí la estrategia de monetización – el agente ejecutará efectivamente los distintos pasos necesarios, incluidas las reservas y el pago del transporte.

Aún no hemos llegado a ese punto porque la mayoría de las personas no están preparadas para delegar la autoridad de compra o el acceso total a aplicaciones en modelos de IA poco fiables. Pero la esperanza es que se puedan abordar esas preocupaciones hasta el punto de que la gente esté dispuesta a intentarlo. Y dada la tolerancia al riesgo demostrada por el público en cuanto a la inversión en criptomonedas y la conducción automatizada sin intervención, ese punto no está lejos.

“La aplicación práctica de los agentes de IA es un área de investigación llena de posibilidades apasionantes”, dijeron Demis Hassabis, director ejecutivo de Google DeepMind y Koray Kavukcuoglu, director de tecnología de Google DeepMind, en una publicación de blog proporcionada a El registro“Estamos explorando esta nueva frontera con una serie de prototipos que pueden ayudar a las personas a realizar tareas y lograr resultados. Estos incluyen una actualización del Proyecto Astra, nuestro prototipo de investigación que explora las capacidades futuras de un asistente de IA universal; el nuevo Proyecto Mariner, que explora el futuro de la interacción entre humanos y agentes, comenzando con su navegador; y Jules, un agente de código impulsado por IA que puede ayudar a los desarrolladores”.

Para hacer realidad sus sueños de Jarvis – una referencia al asistente personal que aparece en las películas de Iron Man de Marvel – Google apunta a los desarrolladores de software. A través de sus plataformas AI Studio y Vertex AI, la empresa ofrece modelos de IA que pueden ser conectado a tierra – vinculados a fuentes de datos específicas para que las respuestas del modelo sean más precisas – y con acceso a funciones y herramientas específicas.

“AI Studio está pensado para ser una especie de interfaz para que los desarrolladores tengan acceso a los últimos modelos de Google”, explicó Logan Kilpatrick, gerente de productos de AI Studio y Gemini API, durante una conferencia de prensa. “Allí están todos esos modelos experimentales que lanzamos. Están todos los modelos de producción. La intención es que te intereses en las capacidades que ofrece Gemini y, en última instancia, que desarrolles con la API de Gemini y que realmente te guste incorporar Gemini a tus aplicaciones y proyectos”.

Gemini 2.0 Flash llega un año después del debut del primer modelo Gemini de Google. Se suma una alineación que incluye otros modelos de la familia Gemini: Gemini 1.0 Ultra, Gemini 1.5 Pro, Gemini 1.0 Pro, Gemini 1.5 Flash y Gemini 1.0 Nano.

En general, las versiones 1.5 son más capaces que las 1.0, y los modelos más grandes tienden a tener un mejor rendimiento que los más pequeños (Ultra, Pro, Flash y Nano, en orden de tamaño); Chocolate Factory ha publicado los puntos de referencia que brindan más detalles. Se dice que Gemini 2.0 Flash es el doble de rápido que 1.5 Pro, con un mejor rendimiento.

Gemini 2.0 Flash incorpora algunas nuevas capacidades. El modelo es multilingüe y multimodal: puede aceptar texto, imágenes y audio como entrada y puede responder en cualquiera de esos modos. Además, cuenta con una API multimodal en vivo, por lo que puede participar en conversaciones y análisis de imágenes en tiempo real.

Además, el nuevo modelo admite el uso de herramientas, en forma de ejecución y búsqueda de código, lo que proporciona acceso a información reciente, capacidades de cálculo y la posibilidad de interactuar con fuentes de datos sin configuración adicional.

“El modelo ahora puede generar de forma nativa tanto audio como imágenes, lo que comenzará en un programa de acceso temprano pero se implementará de manera más amplia en los próximos meses”, dijo Kilpatrick.

Junto con el debut de Gemini 2.0 Flash, Google está comenzando a implementar Jules, agregando algunas "capacidades de ciencia de datos de agente" a Colaboración de Googley hacer que su nuevo modelo esté disponible dentro de Gemini Code Assist, la extensión de codificación de IA de la compañía para VS Code, IntelliJ PyCharm y otros IDE.

“A partir de hoy [para los evaluadores de confianza], pueden delegar tareas de codificación de Python y JavaScript a Jules, un agente de código experimental impulsado por IA que utilizará Gemini 2.0”, dijeron Shrestha Basu Mallick, gerente de producto de grupo para Gemini API, y Kathy Korevec, directora de producto de Google Labs, en una publicación de blog proporcionada a El registro“Al trabajar de forma asincrónica e integrada con tu flujo de trabajo de GitHub, Jules se encarga de corregir errores y otras tareas que consumen mucho tiempo mientras tú te concentras en lo que realmente quieres crear”.

Aquellos que no estén en el programa de probadores de confianza pueden regístrate Para probar a Jules en 2025.

Como demostración de Gemini 2.0 Flash, Basu Mallick jugó un juego de 20 preguntas con el modelo hablándole y escuchando sus respuestas. También le pidió que contara la cantidad de dedos que sostenía en una transmisión de video y que dijera de qué color tenía pintadas las uñas. El modelo respondió adecuadamente en ambos casos, aunque diríamos que "rojo" habría sido una respuesta más precisa a la pregunta sobre el color de las uñas que "rosa". Sin embargo, eso podría reflejar diferencias en la representación del color del monitor.

Basu Mallick también demostró cómo Gemini 2.0 Flash puede manejar un mensaje de varios pasos que le pide al modelo que identifique las cinco películas más largas de Denis Villeneuve, calcule sus respectivos tiempos de ejecución y luego trace los datos en un gráfico. La tarea implicaba que el modelo generara código Python y lo ejecutara en un entorno limitado para calcular los resultados.

“Este es el tipo de instrucción compleja en la que primero hay que resolver la primera parte de la instrucción y luego la segunda parte”, explicó. “Luego le pido que escriba un código para determinar cuál tiene los tiempos de ejecución más largos y más cortos y luego hacer un gráfico”.

Captura de pantalla de la receta y la imagen de generación del modelo Flash de Gemini 2.0

Captura de pantalla de la receta y la imagen de generación del modelo Flash de Gemini 2.0: haga clic para ampliar

Otra demostración mostró las capacidades multimodales de Gemini 2.0 Flash para generar recetas. El modelo pudo crear imágenes que mostraban cómo se verían los ingredientes en una sartén para complementar las instrucciones de texto generadas.

Lo único que faltaba era información sobre los precios. “En este momento no estamos diciendo nada sobre los precios”, dijo Kilpatrick. “Los desarrolladores podrán usar la API multimodal en vivo y los modelos 2.0 de forma gratuita a través de AI Studio, y cuando hagamos un lanzamiento más amplio a principios del próximo año, les informaremos sobre los precios”. ®

Artículos relacionados

punto_img

Artículos Recientes

punto_img