Logotipo de Zephyrnet

Malas noticias para desarrolladores de juegos: Google Genie está detrás de sus trabajos

Fecha:

¡Prepárate para adentrarte en un mundo de pura imaginación, porque Google Genie ha llegado para hacer de tus sueños una realidad virtual!

La semana pasada, OpenAI nos cautivó a todos con su avanzada herramienta de generación de video. Sora AI, y ahora el innovador modelo de inteligencia artificial de Google transforma imágenes simples en entornos virtuales totalmente reproducibles.

Sí, ahora puedes crear un juego de plataformas 2D completo con un movimiento de muñeca (o al menos con un toque de teclado).

Tim Rocktaschel, Líder del equipo de duración abierta en Mente profunda de Google, ha anunciado el nacimiento de Google Genie en X con las siguientes palabras:

¿Qué es el genio de Google?

El diseño de juegos tradicional a menudo requiere habilidades de codificación complejas. Con Google Genie las barreras técnicas se reducen significativamente. La IA maneja los intrincados procesos de transformar tu idea en un entorno virtual jugable, permitiéndote concentrarte en la pura alegría de la creación.

Google Genie está a la vanguardia de la tecnología de IA, clasificado como “modelo mundial de fundación".

Esto significa que ha sido entrenado en un conjunto de datos masivo de videos de Internet, particularmente aquellos que muestran juegos. A través de esta capacitación, Genie desarrolla una comprensión profunda de cómo funcionan los entornos y cómo los jugadores suelen interactuar con ellos.

Piense en Google Genie como su asistente personal de desarrollo de juegos. Todo lo que necesitas hacer es proporcionar un punto de partida y este podría ser:

  • an imagen
  • a descripción escrita
  • a boceto simple dibujado a mano

Luego, Google Genie toma sus comentarios y utiliza su poder creativo para construir un espacio virtual único y totalmente jugable.

La verdadera magia aquí es que Google Genie aprende a crear Mundos virtuales controlables sin instrucciones de juego específicas.. Analiza vídeos para comprender las reglas básicas de los entornos y con qué pueden interactuar los jugadores. Sorprendentemente, esto permite esquemas de control consistentes incluso en mundos totalmente nuevos generados por IA.

¿Qué es Google Genie y cómo usarlo?
Utilizando algoritmos complejos, Google Genie transforma imágenes estáticas en juegos jugables (Crédito de la imagen)

La magia de Google DeepMind

Google DeepMind logra sorprendernos con casi todo lo que hace y Google Genie no es una excepción.

El cerebro de Google Genie está construido sobre un tipo especial de transformador llamado transformador espaciotemporal (ST). A diferencia de los transformadores normales diseñados para texto, los transformadores ST están optimizados específicamente para comprender vídeos. Prestan atención a lo que sucede dentro de cada marco individual (atención espacial) y también a cómo las cosas cambian en múltiples marcos a lo largo del tiempo (atención temporal). Esto los hace mucho mejores en el manejo de los patrones complejos que se encuentran en las imágenes en movimiento.

Los vídeos se componen de una tonelada de píxeles, lo que puede ser mucho para que lo maneje un modelo. Genio utiliza un tokenizador de vídeo para aplastar esos fotogramas llenos de píxeles en trozos más pequeños y más fáciles de procesar llamados tokens. Piense en ello como traducir una película completa en una serie de símbolos clave. Esta simplificación hace que todo el proceso de generación de video sea más fluido y rápido.

El LAM es como un detective dentro de Google Genie. Mira videos e intenta descubrir las acciones tácitas que suceden entre los cuadros. Esto es importante porque si deseas controlar cómo se reproduce un vídeo generado, debes comprender las acciones que lo impulsan. Dado que los vídeos de Internet no vienen con etiquetas de acción, el LAM tiene que aprender a resolver estas cosas por sí solo.

El modelo dinámico es el corazón del poder de creación de videos de Google Genie. Toma los tokens de vídeo y las acciones calculadas del LAM y los utiliza para predecir cómo debería verse el siguiente fotograma del vídeo. Es como tener una bola de cristal que puede mostrarte el siguiente paso en una película basándose en lo que ha sucedido hasta ahora y la acción que deseas realizar.

VQ-VAE es una técnica sofisticada que ayuda a Google Genie a organizar la información. Es como darle al tokenizador de video y al LAM un libro de códigos especial para traducir las cosas en partes más pequeñas y manejables. Esto hace que aprender y representar patrones complejos en videos sea mucho más eficiente.

¿Qué es Google Genie y cómo usarlo?
El modelo dinámico utilizado en Google Genie predice y crea el siguiente fotograma de vídeo, manteniendo el juego en marcha (Crédito de la imagen)

Aquí hay un resumen del flujo de trabajo de Google Genie:

  1. Inferencia de acción latente:
    1. codificador: Graba una secuencia de vídeo. Genera representaciones continuas que se relacionan con las acciones que ocurren entre fotogramas.
    2. Descifrador: Este componente existe sólo para entrenamiento. Predice el siguiente fotograma real utilizando fotogramas anteriores y las acciones latentes producidas por el codificador. Esto ayuda a entrenar al LAM para generar representaciones de acción significativas.
    3. VQ-VAE: Las acciones latentes previstas se cuantifican en un pequeño conjunto de códigos discretos. Esto asegura un vocabulario de acción limitado, facilitando el control humano durante el proceso de generación.
  2. Tokenización de vídeo:
    1. Tokenizador de vídeo basado en transformador ST (ST-ViViT): Incorpora información tanto espacial como temporal durante la fase de tokenización. Esto mejora la calidad de generación de video en comparación con los tokenizadores solo espaciales.
  3. Modelado dinámico:
    1. Transformador MaskGIT: Genie utiliza una variante solo decodificadora de la arquitectura MaskGIT
    2. Entrada: En cada paso, recibe tanto los tokens de vídeo anteriores como la acción latente correspondiente.
    3. Salida: predice los tokens que representan el siguiente fotograma
    4. Formación: Entrenado con pérdida de entropía cruzada para alinear los tokens predichos con los tokens reales del video. El enmascaramiento se utiliza en el momento del entrenamiento para mejorar la robustez.
  4. Inferencia:
    1. Inicialización: El usuario proporciona un marco de imagen inicial, que está tokenizado.
    2. Selección de acción: El usuario elige una acción deseada del vocabulario discreto aprendido durante la fase LAM
    3. Predicción: El modelo dinámico genera los tokens del siguiente cuadro en función de los tokens del cuadro inicial y la acción elegida.
    4. Descodificación: El decodificador del tokenizador de video convierte los tokens predichos nuevamente en un cuadro de video.
    5. autorregresión: El proceso se repite, con el fotograma recién generado y una nueva acción especificada por el usuario convirtiéndose en la entrada para la siguiente predicción.

¿Querer aprender más? Aquí está El trabajo de investigación de Google Genie.

¿Qué es Google Genie y cómo usarlo?
Google Genie insinúa un futuro en el que compartir tu juego personalizado será tan sencillo como compartir una imagen (Crédito de la imagen)

Cómo utilizar Google Genie

Aunque la Google Genie aún no está disponible para uso público, puedes encontrar más información y demostraciones fascinantes en el sitio web oficial. Y esté atento: ¡esta tecnología tiene el potencial de cambiar fundamentalmente la forma en que creamos y experimentamos los juegos!

Construyendo el futuro de los juegos

Aunque aún se encuentra en sus primeras etapas, Google Genie muestra el asombroso poder de la creatividad impulsada por la IA. Desdibuja la línea entre nuestros mundos imaginados y aquellos en los que jugamos, insinuando un futuro en el que compartir tu juego será tan fácil como compartir una foto.

Sin embargo, hay desafíos que superar. Actualmente, Genie destaca en los juegos de plataformas 2D, pero escalar a mundos 3D complejos sigue siendo difícil.

Además, los juegos generados tener controles relativamente simples; Es probable que las investigaciones futuras se centren en un control más preciso y en mecánicas complejas.

Como modelo generativo, Genie puede resultar sorprendente, para bien o para mal: encontrar formas de guiar el proceso de generación hacia la intención del creador es un área de investigación activa.


Crédito de la imagen destacada: Oleg Gamulinskii/Pixabay.

punto_img

Información más reciente

punto_img