Logotipo de Zephyrnet

Anna's Archive eliminó WorldCat para ayudar a preservar "todos" los libros del mundo

Fecha:

Inicio > Piratería >


Anna's Archive eliminó WorldCat, el catálogo de biblioteca más grande del mundo, en un esfuerzo por ayudar a preservar las copias digitales de todos los libros del mundo. El metabuscador es muy consciente de los riesgos legales, pero cree que vale la pena correrlos para preservar el legado escrito de la humanidad. Además, la base de datos del archivo ha despertado el interés de los desarrolladores de inteligencia artificial y también de los equipos de LLM.

el archivo de ana

el archivo de anaHace unos años, la piratería de libros se consideraba una actividad marginal que rara vez aparecía en las noticias, pero los tiempos han cambiado.

El año pasado, el Departamento de Justicia de EE. afectados popular biblioteca en la sombra Z-Library, acusándola de infracción masiva de derechos de autor. Dos de los presuntos operadores del sitio fueron arrestados y su procesamiento aún está en curso. pendiente.

En los últimos meses, las bibliotecas paralelas también han sido mencionadas en otras demandas. Los editores demandaron a Libgen por “asombroso” niveles de infracción, por ejemplo. Al mismo tiempo, varias demandas acusó a OpenAI de utilizar Libgen y otras bibliotecas no autorizadas para entrenar sus grandes modelos de lenguaje.

Estos esfuerzos legales han puesto a los operadores de bibliotecas en la sombra bajo una gran presión, pero permanecen en línea, al menos por ahora. De hecho, la represión contra Z-Library impulsó a un nuevo jugador en la mezcla el año pasado; Archivo de Anna.

El archivo de Anna se expande

Anna's Archive es un metabuscador de fuentes de piratería de libros y bibliotecas paralelas. El sitio lanzado días después del ataque a Z-Library en noviembre pasado, para garantizar y facilitar la disponibilidad de libros y artículos para el público en general.

el archivo de ana

Con más de 20 millones de libros indexados y casi 100 millones de artículos (muchos de los cuales se comparten sin permiso), Anna's Archive ya ha recorrido un largo camino. Esto no ha pasado desapercibido para el gran público, ya que el metabuscador cuenta con más de 12 millones de visitas mensuales según estimaciones de tráfico recientes.

Para Anna's Archive, todo esto es sólo el comienzo. Las personas detrás del sitio pretenden desempeñar un papel crucial en la preservación de todos los libros disponibles en el mundo, incluso si eso significa estar en desacuerdo con la ley de derechos de autor.

Eliminando los mil millones de récords de WorldCat

Esta semana, el motor de búsqueda anunció un nuevo hito que debería ayudarle a alcanzar este objetivo final. Durante los últimos meses, Anna's Archive ha estado recopilando en secreto WorldCat, la base de datos de metadatos de libros más grande del mundo.

WorldCat está dirigido por la organización sin fines de lucro OCLC y trabaja con decenas de miles de bibliotecas en todo el mundo. Su base de datos es propietaria y no está disponible gratuitamente, pero Anna's Archive logró eludir las restricciones y hacer que su propia copia esté disponible gratuitamente.

“Aunque OCLC es una organización sin fines de lucro, su modelo de negocios requiere proteger su base de datos. Bueno, amigos de OCLC, lamentamos decirles que lo estamos regalando todo”, señala Anna's Archive.

El metabuscador dice que logró extraer la asombrosa cifra de tres terabytes de metadatos. El conjunto de datos incluye 1.3 millones de identificaciones únicas que, después de eliminar duplicados y otros ruidos, equivalen a 700 millones de registros únicos.

Meta superior

El usuario medio probablemente no esté especialmente interesado en descargar metadatos; Quieren libros. Sin embargo, Anna's Archive cree que estos registros ayudarán a lograr su objetivo final.

“Creemos que este lanzamiento marca un hito importante en el mapeo de todos los libros del mundo. Ahora podemos trabajar para hacer una lista TODO de todos los libros que aún deben conservarse.

"Es una tarea enorme que requiere que muchas personas e instituciones trabajen en ella, tanto bibliotecas legales como bibliotecas paralelas, y esperamos ser una piedra angular en este esfuerzo", informa Anna a TorrentFreak.

Eliminar WorldCat es solo el primer paso. El siguiente paso es poner esta información a trabajar y determinar qué tan completas son las ofertas actuales de la biblioteca.

Dar sentido a los datos

Los datos de WorldCat no se limitan sólo a libros, sino que también incluyen música, vídeos y artículos en línea. Esto debe limpiarse y deduplicarse, lo que requiere algunas habilidades avanzadas en ciencia de datos.

“Es por eso que buscamos involucrar a la comunidad y por eso organizamos el mini concurso para científicos de datos. Es un conjunto de datos enorme y necesitamos ayuda”, afirma Anna.

la competencia de anna

En un del blog Al anunciar los nuevos cambios y la competencia, el metabuscador también señala que los investigadores de IA han mostrado interés en el proyecto. Esto tiene sentido, ya que las bibliotecas grandes son ideales para la formación de LLM.

IA y riesgos legales

Se cree que muchas herramientas comerciales de inteligencia artificial, incluido ChatGPT de OpenAI, se entrenaron con libros de bibliotecas paralelas. Esto desencadenó una avalancha de demandas por infracción de derechos de autor que están en curso.

En este momento, todavía hay mucha incertidumbre sobre qué datos se pueden utilizar y bajo qué condiciones, pero los tribunales y los legisladores ofrecerán más orientación en ese frente en los próximos años.

La incertidumbre no ha impedido que los grupos de IA se acerquen a Anna's Archive, que recibe correos electrónicos de creadores de LLM todos los días y está trabajando activamente con varias partes anónimas.

No hace falta decir que ejecutar los motores de búsqueda de bibliotecas paralelas más grandes no está exento de riesgos. Es probable que los editores y autores vean Anna's Archive como una operación de piratería masiva y constantemente acechan amenazas legales.

Anna's Archive es muy consciente de estos riesgos y "obviamente está muy preocupada". Sin embargo, el equipo detrás del sitio cree que vale la pena asumir estos riesgos en un panorama más amplio.

“Creemos que esfuerzos como el nuestro para preservar el legado de la humanidad deberían ser totalmente legales y que los derechos de autor son demasiado estrictos. Pero, por desgracia, esto no será así. Tomamos todas las precauciones. Esta misión es tan importante que vale la pena correr riesgos”, concluye Anna.

punto_img

Información más reciente

punto_img