Logotipo de Zephyrnet

El meollo del asunto: desmitificar la copia en la formación de LLM – DATAVERSITY

Fecha:

Si reflexionamos sobre los últimos 15 meses, el progreso realizado en la IA generativa y los grandes modelos de lenguaje (LLM) tras la introducción y disponibilidad de ChatGPT para el público ha dominado los titulares. 

La piedra angular de este progreso fue la arquitectura del modelo Transformer descrita por un equipo de investigadores de Google en un artículo titulado "La atención es todo lo que necesitas.” Como sugiere el título, una característica clave de todos los modelos Transformer es el mecanismo de atención, definido en el artículo de la siguiente manera:

“Una función de atención se puede describir como el mapeo de una consulta y un conjunto de pares clave-valor a una salida, donde la consulta, las claves, los valores y la salida son todos vectores. La salida se calcula como una suma ponderada de los valores, donde el peso asignado a cada valor se calcula mediante una función de compatibilidad de la consulta con la clave correspondiente.

Una característica de los modelos de IA generativa es el consumo masivo de entradas de datos, que pueden consistir en texto, imágenes, archivos de audio, archivos de vídeo o cualquier combinación de entradas (un caso generalmente denominado “multimodal”). Desde la perspectiva de los derechos de autor, una pregunta importante (entre muchas preguntas importantes) es si los materiales de capacitación se conservan en el modelo de lenguaje grande (LLM) producido por varios proveedores de LLM. Para ayudar a responder esa pregunta, necesitamos comprender cómo se procesan los materiales textuales. Centrándonos en el texto, lo que sigue es una descripción breve y no técnica de exactamente ese aspecto de la formación LLM. 

Los humanos se comunican en lenguaje natural colocando palabras en secuencias; las reglas sobre la secuencia y la forma específica de una palabra están dictadas por el idioma específico (por ejemplo, inglés). Una parte esencial de la arquitectura de todos los sistemas de software que procesan texto (y, por lo tanto, de todos los sistemas de IA que lo hacen) es cómo representar ese texto para que las funciones del sistema se puedan realizar de manera más eficiente. Por lo tanto, un paso clave en el procesamiento de una entrada textual en modelos lingüísticos es dividir la entrada del usuario en "palabras" especiales que el sistema de IA pueda entender. Esas palabras especiales se llaman "fichas". El componente responsable de esto se llama "tokenizador". Hay muchos tipos de tokenizadores. Por ejemplo, OpenAI y Azure OpenAI utilizan un método de tokenización de subpalabras llamado "Codificación de pares de bytes (BPE)" para sus modelos basados ​​en Transformadores generativos preentrenados (GPT). BPE es un método que fusiona los pares de caracteres o bytes que aparecen con mayor frecuencia en un solo token, hasta alcanzar una cierta cantidad de tokens o un tamaño de vocabulario. Cuanto mayor sea el tamaño del vocabulario, más diversos y expresivos serán los textos que puede generar el modelo.

Una vez que el sistema de inteligencia artificial ha mapeado el texto de entrada en tokens, codifica los tokens en números y convierte las secuencias que procesó como vectores denominados "incrustaciones de palabras". Un vector es un conjunto ordenado de números; puedes considerarlo como una fila o columna de una tabla. Estos vectores son representaciones de tokens que conservan su representación original en lenguaje natural proporcionada como texto. Es importante comprender el papel de las incrustaciones de palabras cuando se trata de derechos de autor porque las incrustaciones forman representaciones (o codificaciones) de oraciones completas, o incluso párrafos y, por lo tanto, en combinaciones de vectores, incluso documentos completos en un espacio vectorial de alta dimensión. Es a través de estas incorporaciones que el sistema de inteligencia artificial captura y almacena el significado y las relaciones de las palabras del lenguaje natural. 

Las incrustaciones se utilizan en prácticamente todas las tareas que realiza un sistema de IA generativa (por ejemplo, generación de texto, resumen de texto, clasificación de texto, traducción de texto, generación de imágenes, generación de código, etc.). Las incrustaciones de Word generalmente se almacenan en bases de datos vectoriales, pero una descripción detallada de todos los enfoques de almacenamiento está más allá del alcance de esta publicación, ya que existe una amplia variedad de proveedores, procesos y prácticas en uso.

Como se mencionó, casi todos los LLM se basan en la arquitectura Transformer, que invoca el mecanismo de atención. Esto último permite que la tecnología de inteligencia artificial vea oraciones enteras, e incluso párrafos, como un todo y no como meras secuencias de caracteres. Esto permite que el software capture los diversos contextos dentro de los cuales puede aparecer una palabra y, como estos contextos los proporcionan las obras utilizadas en la capacitación, incluidas las obras protegidas por derechos de autor, no son arbitrarios. De esta manera, el sistema de IA conserva el uso original de las palabras, la expresión de la obra original. Puede reproducirse y analizarse, y puede constituir la base de nuevas expresiones (que, según las circunstancias específicas, pueden caracterizarse como “obra derivada” en el lenguaje del derecho de autor). 

Los LLM conservan las expresiones de los trabajos originales en los que se han formado. Forman representaciones internas del texto en espacios vectoriales especialmente diseñados y, si se les proporciona la información adecuada como desencadenante, podrían reproducir las obras originales que se utilizaron en su formación. Los sistemas de inteligencia artificial obtienen beneficios perpetuos del contenido, incluido el contenido protegido por derechos de autor, utilizado para capacitar a los LLM en los que se basan. Los LLM reconocen el contexto de las palabras basándose en la expresión de las palabras en el trabajo original. Y este contexto beneficia acumulativamente al sistema de inteligencia artificial en miles o millones de obras protegidas por derechos de autor utilizadas en la capacitación. Estas obras originales pueden ser recreadas por el sistema de inteligencia artificial porque están almacenadas en vectores (representaciones de tokens en el espacio vectorial que preservan su representación original en lenguaje natural) de la obra protegida por derechos de autor. Desde la perspectiva de los derechos de autor, determinar si los materiales de capacitación se conservan en los LLM es el meollo de la cuestión, y está claro que la respuesta a esa pregunta es sí.

punto_img

Información más reciente

punto_img