Logotipo de Zephyrnet

Modelos de generación de vídeo como simuladores del mundo.

Fecha:

Este informe técnico se centra en (1) nuestro método para convertir datos visuales de todo tipo en una representación unificada que permite el entrenamiento a gran escala de modelos generativos y (2) la evaluación cualitativa de las capacidades y limitaciones de Sora. Los detalles del modelo y la implementación no se incluyen en este informe.

Gran parte del trabajo anterior ha estudiado el modelado generativo de datos de vídeo utilizando una variedad de métodos, incluidas redes recurrentes,[^ 1][^ 2] redes generativas adversarias,[^ 4][^ 6] transformadores autorregresivos,[^ 8] y modelos de difusión.[^ 10][^ 12] Estos trabajos suelen centrarse en una categoría limitada de datos visuales, en vídeos más cortos o en vídeos de un tamaño fijo. Sora es un modelo generalista de datos visuales: puede generar vídeos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta definición.

punto_img

Información más reciente

punto_img