Google DeepMind ha lanzado Gemini 2.0. Se trata del último hito en inteligencia artificial, marcando el comienzo de una nueva era en IA agenteEl anuncio fue realizado por Demis Hassabis, CEO de Google DeepMind, y Koray Kavukcuoglu, CTO de Google DeepMind, en nombre del equipo Gemini.
Tabla de contenidos.
Una nota de Sundar Pichai
Sundar Pichai, director ejecutivo de Google y Alphabet, destacó cómo Gemini 2.0 contribuye a la misión de Google de organizar la información del mundo para que sea accesible y práctica. Gemini 2.0 representa un gran avance en la tarea de hacer que la tecnología sea más útil y tenga mayor impacto al procesar la información a través de diversas entradas y salidas.
Pichai destacó la introducción de Gemini 1.0 El pasado mes de diciembre se presentó como un hito en la IA multimodal. Es capaz de comprender y procesar datos en texto, vídeo, imágenes, audio y código. Junto con Gemini 1.5, estos modelos han permitido a millones de desarrolladores innovar dentro del ecosistema de Google, incluidos sus siete productos con más de 2 mil millones de usuarios. CuadernoLM Fue citado como un excelente ejemplo del poder transformador de la multimodalidad y las capacidades de largo contexto.
Al reflexionar sobre el año pasado, Pichai habló sobre el enfoque de Google en la IA con agentes, modelos diseñados para comprender su entorno, planificar varios pasos por adelantado y tomar acciones supervisadas. Por ejemplo, la IA con agentes podría impulsar herramientas como asistentes universales que organizan horarios, ofrecen sugerencias de navegación en tiempo real o realizan análisis de datos complejos para empresas. El lanzamiento de Gemini 2.0 marca un avance significativo, que muestra el progreso de Google hacia estas aplicaciones prácticas e impactantes.
La versión experimental de Gemini 2.0 Flash ya está disponible para desarrolladores y evaluadores. Presenta funciones avanzadas como Deep Research, una capacidad para explorar temas complejos y compilar informes. Además, AI Overviews, una función popular que llega a mil millones de usuarios, aprovechará ahora las capacidades de razonamiento de Gemini 1 para abordar consultas complejas. Se prevé que esté disponible a principios del próximo año.
Pichai también mencionó que Gemini 2.0 se basa en una década de innovación y funciona completamente con Trillium, las TPU de sexta generación de Google. Esta base tecnológica representa un gran paso para que la información no solo sea accesible, sino también procesable y de impacto.
¿Qué es Gemini 2.0 Flash?
El primer lanzamiento de la familia Gemini 2.0 es un modelo experimental llamado Gemini 2.0 Flash. Diseñado como un modelo de trabajo pesado, ofrece baja latencia y un rendimiento mejorado, incorporando tecnología de vanguardia a escala. Este modelo establece un nuevo punto de referencia para la eficiencia y la capacidad en aplicaciones de IA.
Gemini 2.0 Flash se basa en el éxito de 1.5 Flash, un modelo muy popular entre los desarrolladores, al ofrecer no solo un rendimiento mejorado, sino también el doble de velocidad en los principales puntos de referencia en comparación con 1.5 Pro. Esta mejora garantiza tiempos de respuesta igualmente rápidos a la vez que introduce capacidades multimodales avanzadas que establecen un nuevo estándar de eficiencia. Cabe destacar que 2.0 Flash supera a 1.5 Pro en los puntos de referencia clave al doble de velocidad. También introduce nuevas capacidades: soporte para entradas multimodales como imágenes, video y audio, y salidas multimodales como imágenes generadas de forma nativa combinadas con texto y audio multilingüe de texto a voz (TTS) orientable. Además, puede llamar de forma nativa a herramientas como Google Search, ejecutar código e interactuar con funciones de terceros definidas por el usuario.
El objetivo es que estos modelos sean accesibles de forma segura y rápida. Durante el mes pasado, se compartieron las primeras versiones experimentales de Gemini 2.0 y se recibieron valiosos comentarios de los desarrolladores. Gemini 2.0 Flash ya está disponible como modelo experimental para los desarrolladores a través de la API de Gemini en Google AI Studio y Vertex AI. La entrada multimodal y la salida de texto están disponibles para todos los desarrolladores, mientras que la conversión de texto a texto y la generación de imágenes nativas están disponibles para los socios que accedan de forma anticipada. La disponibilidad general está prevista para enero, junto con tamaños de modelo adicionales.
Para respaldar las aplicaciones dinámicas e interactivas, también se está lanzando una nueva API Multimodal Live. Incluye entrada de transmisión de audio y video en tiempo real y la capacidad de usar múltiples herramientas combinadas. Por ejemplo, las aplicaciones de telesalud podrían aprovechar esta API para integrar sin problemas transmisiones de video de pacientes en tiempo real con herramientas de diagnóstico e inteligencia artificial conversacional para consultas médicas instantáneas.
Lea también 4 modelos de Géminis de Google que debes conocer
Características principales de Gemini 2.0 Flash
- Mejor rendimiento Gemini 2.0 Flash es más potente que 1.5 Pro y, al mismo tiempo, mantiene la velocidad y la eficiencia. Las mejoras clave incluyen un mejor rendimiento de razonamiento, comprensión espacial, código y texto multimodal. Los avances en comprensión espacial permiten una generación más precisa de cuadros delimitadores y una mejor identificación de objetos en imágenes desordenadas.
- Nuevas modalidades de salida Gemini 2.0 Flash permite a los desarrolladores generar respuestas integradas que combinan texto, audio e imágenes mediante una única llamada API. Las características incluyen:
- Salida de audio nativa multilingüe: Control detallado sobre texto a voz con voces de alta calidad y múltiples idiomas.
- Salida de imagen nativa: Soporte para edición conversacional de múltiples turnos con texto e imágenes intercalados, ideal para contenido multimodal como recetas.
- Uso de herramientas nativas Gemini 2.0 Flash puede llamar de forma nativa a herramientas como Google Search y la ejecución de código, así como a funciones personalizadas de terceros. Esto permite obtener respuestas más objetivas y completas y una mejor recuperación de la información. Las búsquedas paralelas mejoran la precisión al integrar múltiples hechos relevantes.
API multimodal en vivo La API admite aplicaciones multimodales en tiempo real con entradas de transmisión de audio y video. Integra herramientas para casos de uso complejos, lo que permite patrones de conversación como interrupciones y detección de actividad de voz.
Comparación de referencia: Gemini 2.0 Flash frente a modelos anteriores
Gemini 2.0 Flash demuestra mejoras significativas en múltiples pruebas comparativas en comparación con sus predecesores, Gemini 1.5 Flash y Gemini 1.5 Pro. Los aspectos más destacados incluyen:
- Rendimiento general (MMLU-Pro):Gemini 2.0 Flash obtiene un 76.4%, superando el 1.5% de Gemini 75.8 Pro.
- Generación de código (Natural2Code):Un salto sustancial al 92.9%, en comparación con el 85.4% de Gemini 1.5 Pro.
- Factibilidad (fundamentación FACTS):Logra el 83.6%, lo que indica una mayor precisión a la hora de generar respuestas factuales.
- Razonamiento matemático (MATH):Obtiene una puntuación de 89.7% y sobresale en tareas de resolución de problemas complejos.
- Comprensión de imágenes (MIMVU):Demuestra avances multimodales con una puntuación del 70.7 %, superando los modelos Gemini 1.5.
- Procesamiento de audio (CoVoST2):Mejora significativa al 71.5%, lo que refleja sus capacidades multilingües mejoradas.
Estos resultados muestran las capacidades multimodales mejoradas de Gemini 2.0 Flash, las habilidades de razonamiento y la capacidad para abordar tareas complejas con mayor precisión y eficiencia.
Gemini 2.0 en la aplicación Gemini
A partir de hoy, los usuarios de Gemini de todo el mundo pueden acceder a una versión optimizada para chat de Flash 2.0 seleccionándola en el menú desplegable de modelos en la versión de escritorio y la web móvil. Pronto estará disponible en la aplicación móvil de Gemini, ofreciendo una experiencia mejorada de asistente de inteligencia artificial. A principios del año próximo, Gemini 2.0 se ampliará a más productos de Google.
Experiencias de agencia impulsadas por Gemini 2.0
Las capacidades avanzadas de Gemini 2.0 Flash, que incluyen razonamiento multimodal, comprensión de contextos extensos, seguimiento de instrucciones complejas y uso de herramientas nativas, permiten una nueva clase de experiencias de agentes. Estos avances se están explorando a través de prototipos de investigación:
Proyecto Astra
Un asistente de inteligencia artificial universal con diálogo mejorado, memoria y uso de herramientas, que ahora se está probando en prototipos de gafas.
[Contenido incrustado]
Proyecto Mariner
Un agente de inteligencia artificial centrado en el navegador capaz de comprender e interactuar con elementos web.
[Contenido incrustado]
Jules Caylar, el experto sexual del equipo
Un agente de código impulsado por IA integrado en los flujos de trabajo de GitHub para ayudar a los desarrolladores.
Agentes en los juegos y más allá
Google DeepMind tiene un historial de uso de juegos para perfeccionar las capacidades de los modelos de IA en materia de lógica, planificación y seguimiento de reglas. Recientemente, se presentó el modelo Genie 2, capaz de generar diversos mundos en 3D a partir de una única imagen. Basándose en esta tradición, Gemini 2.0 potencia a los agentes que ayudan a navegar por los videojuegos, razonar a partir de las acciones de la pantalla y ofrecer sugerencias en tiempo real.
En colaboración con desarrolladores como Supercell, los agentes que funcionan con Gemini se están probando en juegos que van desde títulos de estrategia como “Clash of Clans” hasta simuladores como “Hay Day”. Estos agentes también pueden acceder a la Búsqueda de Google para conectar a los usuarios con un amplio conocimiento sobre juegos.
Más allá de los juegos, estos agentes demuestran potencial en todos los dominios, incluida la navegación web y la robótica, lo que resalta la creciente capacidad de la IA para ayudar en tareas complejas.
[Contenido incrustado]
Estos proyectos resaltan el potencial de los agentes de IA para realizar tareas y ayudar en diversos dominios, incluidos los juegos, la navegación web y la robótica física.
Gemini 2.0 Flash: versión preliminar experimental
Gemini 2.0 Flash ya está disponible como versión preliminar experimental a través de la API de Gemini de Vertex AI y Vertex AI Studio. El modelo presenta nuevas funciones y capacidades básicas mejoradas:
API en vivo multimodal: esta nueva API ayuda a crear aplicaciones de transmisión de audio y visión en tiempo real con el uso de herramientas.
Probemos Gemini 2.0 Flash
Tarea 1. Generación de contenido con Gemini 2.0
Puedes usar la API de Gemini 2.0 para generar contenido mediante un mensaje. A continuación, te indicamos cómo hacerlo con el SDK de Google Gen AI:
Preparar
Primero, instale el SDK:
pip install google-genai
Luego, usa el SDK en Python:
from google import genai
# Initialize the client for Vertex AI
client = genai.Client(
vertexai=True, project='YOUR_CLOUD_PROJECT', location='us-central1'
)
# Generate content using the Gemini 2.0 model
response = client.models.generate_content(
model='gemini-2.0-flash-exp', contents='How does AI work?'
)
# Print the generated content
print(response.text)
Salida:
Bien, profundicemos en cómo funciona la IA. Es un tema amplio, pero podemos desglosarlo.
en conceptos clave.
La idea central: aprender de los datos
En esencia, la mayoría de la IA actual funciona según el principio de aprender de los datos.
Al estar programados explícitamente con reglas para cada situación, los sistemas de IA son
Diseñado para identificar patrones, hacer predicciones y aprender de ejemplos. Piense en
Es como enseñarle a un niño mostrándole muchas imágenes y etiquetándolas.Conceptos y técnicas clave
A continuación se presenta un desglose de algunos de los elementos principales involucrados:
Fecha:
El combustible: los algoritmos de IA están ávidos de datos. Cuantos más datos tengan, mejor.
Pueden aprender y actuar.
Variedad: Los datos pueden venir en muchas formas: texto, imágenes, audio, video, datos numéricos,
Y muchas más.
Calidad: La calidad de los datos es crucial. Los datos ruidosos, sesgados o incompletos pueden
provocar un rendimiento deficiente de la IA.
Algoritmos
Los cerebros: Los algoritmos son el conjunto de instrucciones que siguen los sistemas de IA para procesar
datos y aprender.
Diferentes tipos: Hay muchos tipos diferentes de algoritmos, cada uno adecuado para
Diferentes tareas:
Aprendizaje supervisado: el algoritmo aprende a partir de datos etiquetados (por ejemplo, "esto es un gato",
"Esto es un perro"). Es como si te mostraran la clave de las respuestas.
Aprendizaje no supervisado: el algoritmo aprende a partir de datos no etiquetados, tratando de encontrar
patrones y estructura por sí solos. Piense en agrupar elementos similares sin ser
Se explicó cuáles son las categorías.
Aprendizaje por refuerzo: El algoritmo aprende por ensayo y error, recibiendo recompensas.
o sanciones por sus acciones. Esto es común en la IA de los juegos.
Aprendizaje automático (ML):
El proceso de aprendizaje: el aprendizaje automático es el método principal que impulsa gran parte de la IA actual.
abarca varias técnicas para permitir que las computadoras aprendan de los datos sin
programación explícita.
Técnicas comunes:
Regresión lineal: predicción de un resultado numérico basado en una relación lineal con
variables de entrada (por ejemplo, precio de la vivienda en función del tamaño).
Regresión logística: predicción de un resultado categórico (por ejemplo, spam o no spam).
Árboles de decisión: creación de estructuras similares a árboles para clasificar o predecir resultados basados
sobre una serie de decisiones.
Máquinas de vectores de soporte (SVM): Encontrar el límite óptimo para separar diferentes
clases de datos.
Algoritmos de agrupamiento: agrupar puntos de datos similares (por ejemplo, clientes)
segmentación).
Redes neuronales: redes complejas interconectadas de nodos (inspiradas en el ser humano)
cerebro) que son particularmente potentes para el reconocimiento de patrones complejos.
Aprendizaje profundo (DL):
Un subconjunto del aprendizaje automático: el aprendizaje profundo es un tipo específico de aprendizaje automático que utiliza
redes neuronales artificiales con múltiples capas (de ahí el nombre de "profundas").
Potente extracción de características: el aprendizaje profundo se destaca en el aprendizaje automático
características jerárquicas a partir de datos sin procesar, lo que reduce la necesidad de funciones manuales
Ingenieria.
Aplicaciones: Se utiliza en tareas como reconocimiento de imágenes, procesamiento del lenguaje natural y
síntesis de voz
Ejemplos de arquitecturas de aprendizaje profundo:
Redes neuronales convolucionales (CNN): se utilizan para el análisis de imágenes y vídeos.
Redes neuronales recurrentes (RNN): se utilizan para datos de secuencia como texto y series de tiempo.
Transformadores: Potente arquitectura de red neuronal utilizada para el lenguaje natural
procesar.
Capacitación:
La fase de aprendizaje: durante el entrenamiento, el algoritmo de IA ajusta sus parámetros internos.
parámetros en función de los datos que se le suministran, intentando minimizar los errores.
Iteraciones: el entrenamiento a menudo implica múltiples iteraciones sobre los datos.
Validación: Los datos a menudo se dividen en conjuntos de entrenamiento y validación para evitar
sobreajuste (donde el modelo funciona bien con los datos de entrenamiento pero mal con los nuevos)
datos).
Inferencia:
Uso del modelo aprendido: una vez que se entrena el modelo, se puede utilizar para realizar
predicciones o clasificaciones basadas en datos nuevos e invisibles.
Analogía simplificada
Imagina que quieres enseñarle a una computadora a identificar gatos.
Datos: Proporciona miles de fotografías de gatos (y quizás algunas fotografías que no sean de gatos)
también, etiquetado correctamente).
Algoritmo: elige un algoritmo de red neuronal adecuado para el reconocimiento de imágenes.
Entrenamiento: El algoritmo mira las imágenes, aprende patrones (bordes, formas,
colores) y ajusta sus parámetros internos para distinguir a los gatos de otros objetos.
Inferencia: ahora, cuando le muestras a la IA entrenada una nueva imagen, puede (con suerte)
Identificar correctamente si hay un gato dentro.
Más allá de lo básico
Vale la pena señalar que el campo de la IA está en constante evolución y otras áreas clave
incluyen:
Procesamiento del lenguaje natural (PLN): permitir que las computadoras comprendan, interpreten y
generar lenguaje humano.
Visión por computadora: permitir que las computadoras "vean" e interpreten imágenes y videos.
Robótica: combinación de IA con robots físicos para realizar tareas en el mundo real.
IA explicable (XAI): hacer que las decisiones de IA sean más transparentes y comprensibles.
Consideraciones éticas: abordar cuestiones como el sesgo, la privacidad y la sociedad
Impacto de la IA.
En una palabra
La IA funciona aprovechando grandes cantidades de datos, algoritmos potentes y aprendizaje.
Técnicas para permitir que las computadoras realicen tareas que normalmente requieren intervención humana.
inteligencia. Es un campo que avanza rápidamente con una amplia gama de aplicaciones y
potencial para transformar varios aspectos de nuestras vidas.
¡Avísame si hay áreas específicas que te gustaría explorar más a fondo!
Tarea 2. Ejemplo de API multimodal en vivo (interacción en tiempo real)
La API multimodal en vivo le permite interactuar con el modelo mediante voz, video y texto. A continuación, se muestra un ejemplo de una interacción de texto a texto simple en la que hace una pregunta y recibe una respuesta:
from google import genai
# Initialize the client for live API
client = genai.Client()
# Define the model ID and configuration for text responses
model_id = "gemini-2.0-flash-exp"
config = {"response_modalities": ["TEXT"]}
# Start a real-time session
async with client.aio.live.connect(model=model_id, config=config) as session:
message = "Hello? Gemini, are you there?"
print("> ", message, "n")
# Send the message and await a response
await session.send(message, end_of_turn=True)
# Receive and print responses
async for response in session.receive():
print(response.text)
Salida:
Sí,Estoy aquí.
¿Cómo puedo ayudarte hoy?
Este código demuestra una conversación en tiempo real utilizando la API Multimodal Live, donde usted envía un mensaje y el modelo responde de forma interactiva.
Tarea 3. Utilizar la Búsqueda de Google como herramienta
Para mejorar la precisión y la actualidad de las respuestas, puedes usar la Búsqueda de Google como herramienta. A continuación, te indicamos cómo implementar la Búsqueda como herramienta:
from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
# Initialize the client
client = genai.Client()
# Define the Search tool
google_search_tool = Tool(
google_search=GoogleSearch()
)
# Generate content using Gemini 2.0, enhanced with Google Search
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents="When is the next total solar eclipse in the United States?",
config=GenerateContentConfig(
tools=[google_search_tool],
response_modalities=["TEXT"]
)
)
# Print the response, including search grounding
for each in response.candidates[0].content.parts:
print(each.text)
# Access grounding metadata for further information
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
Salida:
El próximo eclipse solar total visible en Estados Unidos ocurrirá el 8 de abril.
2024.
El próximo eclipse solar total
en los EE. UU. será el 8 de abril de 2024 y será visible en la mitad oriental de
Estados Unidos. Será el primer eclipse total de costa a costa visible en el
Estados Unidos en siete años. Entrará a Estados Unidos por Texas, pasará por Oklahoma,
Arkansas, Misuri, Illinois, Kentucky, Indiana, Ohio, Pensilvania, Nueva York,
Vermont y New Hampshire. Luego saldrá de EE. UU. por Maine.
En este ejemplo, los usuarios utilizan la Búsqueda de Google para obtener información en tiempo real, lo que mejora la capacidad del modelo para responder preguntas sobre eventos o temas específicos con datos actualizados.
Tarea 4. Detección de cuadros delimitadores en imágenes
Para la detección y localización de objetos dentro de imágenes o fotogramas de vídeo, Gemini 2.0 admite la detección de cuadros delimitadores. A continuación, se muestra cómo utilizarla:
from google import genai
# Initialize the client for Vertex AI
client = genai.Client()
# Specify the model ID and provide an image URL or image data
model_id = "gemini-2.0-flash-exp"
image_url = "https://example.com/image.jpg"
# Generate bounding box predictions for an image
response = client.models.generate_content(
model=model_id,
contents="Detect the objects in this image and draw bounding boxes.",
config={"input": image_url}
)
# Output bounding box coordinates [y_min, x_min, y_max, x_max]
for each in response.bounding_boxes:
print(each)
Este código detecta objetos dentro de una imagen y devuelve cuadros delimitadores con coordenadas que pueden usarse para análisis o visualización adicionales.
Notas
- Generación de Imagen y Audio:Actualmente en acceso experimental privado (lista blanca), por lo que es posible que necesite permisos especiales para utilizar funciones de generación de imágenes o de conversión de texto a voz.
- Interacción en tiempo real: Los API multimodal en vivo permite interacciones de voz y video en tiempo real, pero limita la duración de las sesiones a 2 minutos.
- Integración de búsqueda de Google: Con La búsqueda como herramientaPuede mejorar las respuestas del modelo con información actualizada recuperada de la web.
Estos ejemplos demuestran la flexibilidad y el poder del modelo Flash de Gemini 2.0 para gestionar tareas multimodales y proporcionar experiencias de agentes avanzadas. Asegúrese de consultar la documentación oficial para las últimas actualizaciones y funciones.
Desarrollo responsable en la era de la agencia
A medida que avanza la tecnología de IA, Google DeepMind mantiene su compromiso con la seguridad y la responsabilidad. Las medidas incluyen:
- Colaborar con el Comité de Responsabilidad y Seguridad para identificar y mitigar riesgos.
- Mejorar los enfoques de trabajo en equipo para optimizar los modelos de seguridad.
- Implementar controles de privacidad, como la eliminación de sesiones, para proteger los datos del usuario.
- Garantizar que los agentes de IA prioricen las instrucciones del usuario por sobre las entradas maliciosas externas.
Un Futuro de Colaboración
El lanzamiento de Gemini 2.0 Flash y la serie de prototipos de Agentic representan un hito emocionante en la IA. Mientras los investigadores exploran más estas posibilidades, Google DeepMind promueve activamente la IA de manera responsable y da forma al futuro de la era Gemini.
Conclusión
Gemini 2.0 representa un gran avance en el campo de la IA con agentes. Nos lleva a una nueva era de sistemas inteligentes e interactivos. Con sus capacidades multimodales avanzadas, razonamiento mejorado y la capacidad de ejecutar tareas complejas, Gemini 2.0 establece un nuevo punto de referencia para el rendimiento de la IA. El lanzamiento de Gemini 2.0 Flash, junto con sus características experimentales, ofrece a los desarrolladores herramientas poderosas para crear aplicaciones innovadoras en diversos dominios. Mientras Google DeepMind continúa priorizando la seguridad y la responsabilidad, Gemini 2.0 sienta las bases para el futuro de la IA. Un futuro en el que los agentes inteligentes ayudan sin problemas tanto en las tareas cotidianas como en las aplicaciones especializadas, desde los juegos hasta la navegación web.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://www.analyticsvidhya.com/blog/2024/12/gemini-2-0/