Logotipo de Zephyrnet

¿Cómo la marca de agua puede ayudar a mitigar los riesgos potenciales de los LLM?

Fecha:

¿Cómo la marca de agua puede ayudar a mitigar los riesgos potenciales de los LLM?
Imagen del autor

Los modelos de lenguaje extenso (LLM) como ChatGPT, GPT-4 y Bard están revolucionando la forma en que trabajamos. Ahora tenemos herramientas que nos ayudan a codificar todo el programa o escribir una publicación de blog para el lanzamiento de un nuevo producto. Las aplicaciones con tecnología GPT-3.5 están generando textos realistas y diversos sobre múltiples temas. Al igual que todas las nuevas tecnologías, vienen con los riesgos potenciales de robo de propiedad intelectual, plagio, desinformación y abuso en línea. 

¿Cómo nos aseguramos de que los resultados de los LLM sean confiables y responsables? Actualmente, no existe una solución confiable. Hay algunos para detectar el texto generado, pero tienen poca precisión. 

En el artículo de la Universidad de Maryland: Una marca de agua para modelos de lenguaje grande, los autores han propuesto un marco de marca de agua para los LLM patentados. Marca la salida del texto generado con señales invisibles que pueden ser detectadas por un algoritmo e invisibles para los humanos. 

La marca de agua es una técnica eficaz que se puede utilizar para demostrar la propiedad, la autenticidad o la integridad del objeto. 

Por ejemplo:

  • Puede ayudar a proteger la propiedad intelectual (modelos) de los desarrolladores, científicos y empresas de LLM.
  • Puede prevenir el plagio o la atribución errónea.
  • Puede ayudar a detectar campañas de desinformación en las redes sociales.
  • El uso más importante de las marcas de agua es que puede ayudar a monitorear y auditar el uso y el impacto de los LLM y evitar el uso indebido o el abuso.

la marca de agua marco consta de dos componentes: incrustación y detección.

Incrustar

Es el proceso de insertar una marca de agua en la salida de los LLM. Para hacerlo posible, el desarrollador de LLM debe modificar ligeramente los parámetros del modelo para incrustar la marca de agua. 

La incrustación funciona seleccionando un conjunto aleatorio de tokens "verdes" antes de que se genere cada palabra y luego promoviendo suavemente el uso de tokens verdes durante el muestreo. Las fichas verdes se eligen de manera que no afecten el contexto y la calidad del texto. La incrustación también garantiza que haya suficientes tokens en cada tramo para hacer posible el proceso de decisión. 

Detección

Es el proceso de extraer los tokens "verdes" de un fragmento de texto determinado. No requiere parámetros de modelo ni API. La detección funciona calculando una estadística llamada curvatura para cada token en el lapso. La curvatura es la medida de cuán sensible es la distribución de probabilidad sobre los tokens a pequeños cambios en los parámetros del modelo. 

Los autores explican que las fichas verdes tienen una curvatura más alta que las fichas normales y, por lo tanto, forman un patrón detectable en el texto. 

Después de realizar la detección de marcas de agua, el algoritmo realiza una prueba estadística para determinar el nivel de confianza del resultado. 

Puede obtener más información leyendo el artículo sobre arxiv.org.

Puede intentar generar texto con marcas de agua usando el Abrazando la demostración de Space Gradio o puede consultar el repositorio de GitHub: jwkirchenbauer/lm-marca de agua para ejecutar los scripts de Python en una máquina personal. 

 

¿Cómo la marca de agua puede ayudar a mitigar los riesgos potenciales de los LLM?
Imagen de Cara abrazada |  Una marca de agua para LLM 

Revisaremos los resultados mencionados en el documento sobre varias tareas como el resumen, la traducción y la generación de diálogos. 

El documento informa que su marco logra altas tasas de incorporación. >% 90 y tasas de detección >% 99 a través de diferentes tareas manteniendo bajas tasas de falsos positivos <1% y puntajes altos de calidad de texto. Los autores también han demostrado que el marco es resistente a varios ataques, como parafrasear, mezclar o truncar textos con marcas de agua.

  • Tasa de incorporación: con qué frecuencia se utilizan tokens verdes en la salida.
  • Tasa de detección: con qué frecuencia se detectan correctamente las marcas de agua.
  • Tasa de falsos positivos: con qué frecuencia los textos sin marca de agua se detectan por error como con marca de agua.
  • Calidad del texto: qué natural y fluido.

Es un comienzo, y el marco de la marca de agua viene con limitaciones y desafíos, tales como:  

  • Debe modificar los parámetros del modelo durante la incrustación y, en algunos casos (API, dispositivo de borde), no es posible. 
  • Se basa en métodos de generación basados ​​en muestreo que no son compatibles con otros métodos, como la búsqueda por haz o el muestreo de núcleo.
  • Las marcas de agua se incrustan de manera uniforme en diferentes tareas y es posible que no sea bueno para ciertas tareas en las que ciertos tokens tienen más importancia semántica que otros.

Existen otros desafíos de implementación y políticas de uso justo que son esenciales para la adopción generalizada de un algoritmo. 

En este blog, hemos discutido la importancia de la marca de agua para modelos de lenguaje grandes, cómo funciona el marco, los resultados y las limitaciones. Es el resumen de un documento que propone un marco de marca de agua para LLM propietarios.

Es un comienzo y necesitamos marcos como las marcas de agua para que la IA sea más segura para todos. Quiero que pruebes la cara abrazadora manifestación para experimentar la genialidad usted mismo. Si está interesado en la teoría y el funcionamiento interno de los algoritmos, lea el y código fuente
 
 
Abid Ali Awan (@ 1abidaliawan) es un profesional científico de datos certificado al que le encanta crear modelos de aprendizaje automático. Actualmente, se está enfocando en la creación de contenido y escribiendo blogs técnicos sobre aprendizaje automático y tecnologías de ciencia de datos. Abid tiene una Maestría en Gestión de Tecnología y una licenciatura en Ingeniería de Telecomunicaciones. Su visión es construir un producto de IA utilizando una red neuronal gráfica para estudiantes que luchan contra enfermedades mentales.
 

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?