Logotipo de Zephyrnet

Meta admite el uso de un conjunto de datos de libros "pirateados" para entrenar la IA

Fecha:

metalogotipo

metalogotipoEn los últimos meses, titulares de derechos de todo tipo han presentado demandas contra empresas que desarrollan modelos de IA.

La lista incluye sellos discográficos, autores individuales, artistas visuales y, más recientemente, el New York Times. Todos estos titulares de derechos se oponen al presunto uso de su obra sin una compensación adecuada.

Varios de los demandas Las solicitudes presentadas por autores de libros también incluyen un componente de piratería. Los casos alegan que empresas de tecnología, incluidas Meta y OpenAI, utilizaron el controvertido conjunto de datos Books3 para entrenar sus modelos.

El conjunto de datos de Books3 tiene un claro ángulo de piratería. Fue creado por un investigador de IA. Shawn Presser en 2020, quien eliminó la biblioteca del sitio "pirata" Bibliotik. Este archivo de libros fue alojado públicamente por el colectivo de archivo digital 'El ojo' en ese momento, junto con varias otras fuentes de datos.

Bibliotik y otras fuentes previamente alojadas en The Eye
el ojo

La visión general era que la colección en texto plano de más de 195,000 libros, que tiene un tamaño de casi 37 GB, podría ayudar a los entusiastas de la IA a construir mejores modelos, lo que estimularía la innovación.

El auge de la IA desencadena problemas de derechos de autor

Presser no se equivocó, pero el conjunto de datos no solo ayudó a crear nuevas empresas de IA. Varias de las empresas tecnológicas más grandes del mundo también lo descubrieron y lo utilizaron para mejorar sus propios modelos lingüísticos.

Durante años, Books3 siguió estando disponible de forma gratuita y amplia, ayudando a los investigadores y entusiastas de la IA en todo el mundo. Sin embargo, cuando el auge de la IA llegó a la corriente principal el año pasado, los autores y editores de libros se dieron cuenta y luego tomaron represalias.

Por ejemplo, el grupo danés antipiratería Rights Alliance exigió a The Eye que eliminara su copia de Books3, y así fue. El conjunto de datos también desapareció del sitio web de la empresa de inteligencia artificial Huggingface, citando infracción de derechos de autor denunciada, mientras que otros consideraron sus opciones.

Como anteriormente reportaron Por Wired, Bloomberg informó a Rights Alliance que no planea entrenar versiones futuras de su modelo BloombergGPT utilizando Books3, y es probable que otras compañías hayan tomado decisiones similares a puerta cerrada.

Meta admite el uso de Books3

Estos son avances dignos de mención, pero no todas las quejas pueden resolverse con promesas. Siguen en curso varias demandas contra OpenAI y Meta, acusando a las empresas de utilizar el conjunto de datos Books3 para entrenar sus modelos.

Si bien OpenAI y Meta son muy cautelosos a la hora de discutir el tema en público, Meta proporcionó más contexto en un tribunal federal de California esta semana.

En respuesta a una demanda de la escritora y comediante Sarah Silverman, el autor Richard Kadrey y otros titulares de derechos, el gigante tecnológico admite que se utilizaron "porciones de Books3" para entrenar el modelo Llama AI antes de su lanzamiento público.

"Meta admite que utilizó partes del conjunto de datos de Books3, entre muchos otros materiales, para entrenar Llama 1 y Llama 2", escribe Meta en su respuesta.

meta libros3 respuesta

Esta admisión no es una gran sorpresa ya que varias fuentes, incluidos artículos de investigación, llegaron básicamente a la misma conclusión. Si bien Meta no cuestiona el uso de Books3, la pregunta sigue siendo si la empresa se equivocó al hacerlo.

Meta niega la infracción de derechos de autor

La respuesta de Meta admite el uso de Books3 pero niega otras acusaciones y afirmaciones. Por ejemplo, los autores alegaron que Meta entrenó su IA en obras protegidas por derechos de autor sin permiso. La respuesta no niega esto directamente, pero señala que no necesariamente se requiere consentimiento o compensación.

“En la medida en que se considere necesaria una respuesta, Meta niega que su uso de obras protegidas por derechos de autor para entrenar a Llama requiera consentimiento, crédito o compensación”, escribe Meta.

Los autores afirmaron además que, en la medida en que sus libros aparecen en la base de datos Books3, se los denomina “obras infringidas”. Esto llevó a Meta a responder con otra negación. "Meta niega haber infringido los supuestos derechos de autor de los demandantes", escribe la empresa.

Uso justo

La respuesta de Meta no proporciona muchos detalles adicionales y la defensa completa se revelará a medida que avance el caso. Está claro, sin embargo, que la empresa planea basarse en una defensa de uso legítimo, al menos en parte.

“En la medida en que Meta haya realizado copias no autorizadas de las obras registradas con derechos de autor de los Demandantes, dichas copias constituyen un uso legítimo según 17 U.S.C. § 107”, señala Meta.

Se espera que el ángulo del uso legítimo sea una parte clave de esta y otras demandas contra la IA. Esto no sólo se aplica a las fuentes "piratas", sino también al uso de contenido publicado a través de canales oficiales, pero utilizado sin permiso explícito.

Estas batallas legales aún se encuentran en sus primeras etapas, pero en última instancia pueden llegar a la Corte Suprema si es necesario. Las empresas de IA han subrayado que el progreso se verá obstaculizado si las normas y regulaciones son demasiado estrictas.

A principios de esta semana, OpenAI mencionó que el uso legítimo es necesario y fundamental para construyendo modelos de IA competitivos, señalando que las organizaciones de noticias pueden optar por no participar si lo desean. No hace falta decir que esta opción no existía anteriormente, y menos aún para la base de datos Books3.

Suponemos que cuando Presser creó Books3, nunca imaginó que el conjunto de datos estaría en el centro de demandas históricas que podrían definir el futuro de la IA. Sin embargo, lo que está en juego ha cambiado y el bien intencionado esfuerzo de “archivo” es ahora parte de un importante conflicto en materia de derechos de autor.

-

Está disponible una copia de la respuesta de Meta a la primera queja consolidada enmendada del autor. aquí (pdf)

punto_img

Información más reciente

punto_img