Logotipo de Zephyrnet

OpenAI abre las puertas a DALL-E después de que el caballo se haya escapado a Midjourney y otros

Fecha:

OpenAI el miércoles hizo que DALL-E, su servicio en la nube para generar imágenes a partir de indicaciones de texto, esté disponible para el público sin ninguna lista de espera. Pero la multitud que se había reunido fuera de su puerta puede haber seguido adelante.

La DALL-E original debutó en enero de 2021 y fue reemplazado por DALL-E2 este abril. El último lanzamiento, que ofrece capacidades de texto a imagen muy mejoradas, permitió a las personas registrarse para usar el servicio, pero colocó a los aspirantes a artistas de IA en una lista de espera, una que no se movió en los últimos cinco meses para esto. Reg reportero. los nuevo servicio publico se llama DALL-E, aunque sigue siendo la versión 2 de la tecnología.

OpenAI justificó la lista cerrada citando la necesidad de ser cauteloso. La organización quería evitar que los usuarios generaran imágenes violentas, de odio o pornográficas, y evitar la creación de imágenes fotorrealistas de figuras públicas. y creó políticas en ese sentido, porque el abuso y la desinformación son preocupaciones genuinas con la tecnología de creación de imágenes de aprendizaje automático.

"Para garantizar un uso responsable y una gran experiencia, enviaremos invitaciones gradualmente con el tiempo", aconsejó OpenAI a los registrados beta en abril por correo electrónico. “Te avisaremos cuando estemos listos para ti”.

Mientras que OpenAI estaba repartiendo acceso a 1,000 usuarios por semana (hasta mayo), a mitad de camino – un servicio rival de texto a imagen basado en IA – ingresó a la versión beta pública en julio. El servidor Discord de Midjourney, a través del cual los usuarios interactúan con el servicio, supuestamente alcanzó alrededor de un millón de usuarios a fines de julio.

Esa fue aproximadamente la cantidad de invitaciones extendidas por OpenAI en ese momento, luego de una transición a la prueba beta. El servidor Discord de Midjourney actualmente enumera 2.7 millones de miembros, mientras que OpenAI actualmente afirma tener 1.5 millones de usuarios.

En agosto, otra empresa de generación de imágenes de IA llamada Stability.ai lanzó su propio modelo de texto a imagen llamado Difusión estable, bajo un permisivo Licencia CreativeML Open RAIL-M.

El resultado fue una oleada de interés en la difusión estable porque las personas pueden ejecutar el código en una computadora local, sin preocuparse por las tarifas: OpenAI y Midjouney requieren el pago cuando los usuarios han excedido sus asignaciones de nivel gratuito.

Además, la difusión estable se considera una forma de crear imágenes explícitas sin preocuparse por los guardianes de la nube censuradores, ya sea que esas imágenes cumplan o no con las restricciones limitadas (y es poco probable que se apliquen) en la licencia Stable Diffusion.

“En solo unos días, ha habido una explosión de innovación a su alrededor”, escribió Simon Willison, un desarrollador de software de código abierto, en un blog aproximadamente una semana después del lanzamiento público de Stable Diffusion. “Las cosas que la gente está construyendo son absolutamente asombrosas”.

tarde a la fiesta

Solo un mes después, parece que OpenAI ha llegado tarde a la puerta de salida.

"¡DALL-E se ha abierto a todos (sin lista de espera)!" bromeó Brendan Dolan-Gavitt, profesor asistente en el departamento de ingeniería y ciencias de la computación en NYU Tandon, a través de Twitter. “Es increíble lo que pueden hacer unas pocas semanas de competencia de código abierto ;)”

“El desafío que enfrenta OpenAI es que no solo compiten contra el equipo detrás de Stable Diffusion, sino que también compiten contra miles de investigadores e ingenieros que están construyendo nuevas herramientas además de Stable Diffusion”, dijo Willison. El registro.

“La tasa de innovación allí en las últimas cinco semanas ha sido extraordinaria. DALL-E es una poderosa pieza de software, pero OpenAI solo lo está mejorando. Es difícil ver cómo podrán mantenerse al día”.

Artista Ryan Murdock (@advadnoun), que ayudó a poner en marcha la IA de texto a imagen cambiando el modelo de evaluación rápida CLIP de OpenAI y conectándolo a VQGAN, expresó un sentimiento similar.

“Creo que OpenAI sigue siendo relevante, pero DALL-E no”, dijo en una discusión con El registro. "Veo a muy pocas personas que usan DALL-E en la escena porque cuesta dinero, está cerrado en términos de lo que puede o producirá y no se puede usar con nuevas investigaciones interesantes".

Murdock también observó que la textura de las imágenes DALL-E "se ve muy mal porque la superresolución no está condicionada por el texto".

Esa es un área en la que la innovación de código abierto ha ayudado: entre las primeras adiciones al proceso de generación de imágenes de Stable Diffusion se encontraban dos bibliotecas de códigos, GFPGAN y Real-ESRGAN, que manejan la reparación de errores de renderizado de rostros de IA y la mejora de imagen, respectivamente.

Citando el debate en curso sobre la propiedad de la imagen (muchos artistas no están encantados de que su trabajo se haya utilizado sin su consentimiento para entrenar a estos modelos), Murdock dijo que el barco parece haber zarpado porque los modelos de Stable Diffusion ahora viven en las computadoras de las personas. Anticipa aún más rechazo a medida que estos modelos de IA evolucionen para generar video.

Sin desanimarse por los desarrollos externos que han mercantilizado la generación de imágenes de IA y promocionando un filtrado más sólido para garantizar la seguridad de las imágenes, OpenAI ve una oportunidad comercial.

“Actualmente estamos probando una API DALL-E con varios clientes y estamos entusiasmados de ofrecerla pronto de manera más amplia a desarrolladores y empresas para que puedan crear aplicaciones en este poderoso sistema”, dijo la compañía. ®

punto_img

Información más reciente

punto_img