Logotipo de Zephyrnet

Una IA de Google observó 30,000 horas de videojuegos y ahora hace los suyos propios

Fecha:

La IA sigue generando mucha luz y calor. Los mejores modelos en texto e imágenes, que ahora cuentan con suscripciones y se integran en productos de consumo, compiten por centímetros. OpenAI, Google y Anthropic están, más o menos, codo con codo.

No sorprende entonces que los investigadores de IA estén buscando llevar los modelos generativos a nuevos territorios. Como la IA requiere cantidades prodigiosas de datos, una forma de pronosticar hacia dónde se dirigirán las cosas es observar qué datos están ampliamente disponibles en línea, pero aún en gran medida sin explotar.

El vídeo, del que abundan, es el siguiente paso obvio. De hecho, el mes pasado, OpenAI presentó una vista previa una nueva IA de texto a video llamada Sora que sorprendió a los espectadores.

Pero ¿qué pasa con los videojuegos?

Pregunta y Recibe

Resulta que hay bastantes vídeos de jugadores en línea. Google DeepMind dice que entrenó a una nueva IA, Genie, en 30,000 horas de secuencias de video seleccionadas que muestran a jugadores jugando plataformas simples (pensemos en los primeros juegos de Nintendo) y ahora puede crear ejemplos propios.

Genie convierte una simple imagen, fotografía o boceto en un videojuego interactivo.

Si se le da una indicación, digamos un dibujo de un personaje y su entorno, la IA puede recibir información de un jugador para mover a un personaje a través de su mundo. En una publicación de blog, DeepMind mostró las creaciones de Genie navegando por paisajes 2D, caminando o saltando entre plataformas. Como una serpiente que se muerde la cola, algunos de estos mundos incluso se obtuvieron a partir de imágenes generadas por IA.

A diferencia de los videojuegos tradicionales, Genie genera estos mundos interactivos cuadro por cuadro. Al darle un mensaje y un comando para moverse, predice los siguientes fotogramas más probables y los crea sobre la marcha. Incluso aprendió a incluir una sensación de paralaje, una característica común en los juegos de plataformas donde el primer plano se mueve más rápido que el fondo.

En particular, el entrenamiento de la IA no incluía etiquetas. Más bien, Genie aprendió a correlacionar los comandos de entrada (como ir a la izquierda, a la derecha o saltar) con los movimientos del juego simplemente observando ejemplos en su entrenamiento. Es decir, cuando un personaje en un vídeo se movía hacia la izquierda, no había ninguna etiqueta que vinculara el comando con el movimiento. Genie descubrió esa parte por sí sola. Eso significa que, potencialmente, las versiones futuras podrían entrenarse con tantos videos aplicables como los que hay en línea.

La IA es una prueba de concepto impresionante, pero aún se encuentra en una etapa muy temprana de desarrollo y DeepMind no planea hacer público el modelo todavía.

Los juegos en sí son mundos pixelados que se transmiten a un ritmo lento de un fotograma por segundo. En comparación, los videojuegos contemporáneos pueden alcanzar 60 o 120 fotogramas por segundo. Además, como todos los algoritmos generativos, Genie genera artefactos visuales extraños o inconsistentes. También es propenso a alucinar "futuros poco realistas". el equipo escribió en su artículo que describe la IA.

Dicho esto, hay algunas razones para creer que Genie mejorará a partir de ahora.

Azotando mundos

Debido a que la IA puede aprender de videos en línea sin etiquetar y aún tiene un tamaño modesto (sólo 11 mil millones de parámetros), existe una amplia oportunidad de ampliarla. Los modelos más grandes entrenados con más información tienden a mejorar dramáticamente. y con un Industria en crecimiento centrada en la inferencia.(el proceso mediante el cual una IA entrenada realiza tareas, como generar imágenes o texto) es probable que se vuelva más rápido.

DeepMind dice que Genie podría ayudar a las personas, como a los desarrolladores profesionales, a crear videojuegos. Pero al igual que OpenAI, que cree que Sora es más que videos, el equipo está pensando en grande. El enfoque podría ir mucho más allá de los videojuegos.

Un ejemplo: IA que puede controlar robots. El equipo entrenó un modelo separado en video de brazos robóticos completando diversas tareas. El modelo aprendió a manipular los robots y a manejar una variedad de objetos.

DeepMind también dijo que los entornos de videojuegos generados por Genie podrían usarse para entrenar agentes de IA. No es una estrategia nueva. En un artículo de 2021, otro El equipo de DeepMind describió un videojuego llamado XLand que estaba poblado por agentes de IA y un señor supremo de IA que generaba tareas y juegos para desafiarlos. La idea de que el próximo gran paso en IA requerirá algoritmos que puedan entrenarse entre sí o generar datos de entrenamiento sintéticos es ganando tracción.

Todo esto es la última salva en una intensa competencia entre OpenAI y Google para mostrar el progreso en IA. Mientras que otros en el campo, como antrópico, están avanzando modelos multimodales similares a GPT-4, Google y OpenAI también parecen centrados en algoritmos que simulan el mundo. Estos algoritmos pueden ser mejores en la planificación y la interacción. Ambas serán habilidades cruciales para los agentes de IA que ambas organizaciones parecen decididas a producir.

"A Genie se le pueden incitar imágenes que nunca antes había visto, como fotografías o bocetos del mundo real, lo que permite a las personas interactuar con sus mundos virtuales imaginados, actuando esencialmente como un modelo mundial básico", escribieron los investigadores en el artículo. Publicación del blog genio. "Nos centramos en vídeos de juegos de plataformas 2D y robótica pero nuestro método es general y debería funcionar para cualquier tipo de dominio, y es escalable a conjuntos de datos de Internet cada vez más grandes”.

De manera similar, cuando OpenAI presentó una vista previa de Sora el mes pasado, los investigadores sugirieron que podría anunciar algo más fundamental: un simulador mundial. Es decir, ambos equipos parecen ver el enorme caché de videos en línea como una forma de entrenar a la IA para generar su propio video, sí, pero también para comprender y operar de manera más efectiva en el mundo, en línea o fuera de ella.

Si esto rinde dividendos o es sostenible a largo plazo es una cuestión abierta. El cerebro humano funciona con la potencia de una bombilla; La IA generativa consume centros de datos completos. Pero es mejor no subestimar las fuerzas en juego en este momento (en términos de talento, tecnología, cerebro y dinero) con el objetivo no sólo de mejorar la IA sino también de hacerla más eficiente.

Hemos visto un progreso impresionante en texto, imágenes, audio y los tres juntos. Los videos son el siguiente ingrediente que se agrega a la olla y pueden crear una bebida aún más potente.

Crédito de la imagen: Google DeepMind

punto_img

Información más reciente

punto_img