Logotipo de Zephyrnet

En la era de ChatGPT, los modelos de IA son enormemente populares... y fácilmente comprometidos – Mass Tech Leadership Council

Fecha:

Mucho antes de que terminara 2023, ya había sido coronado como el año de la IA generativa. Estimulados por la llegada de modelos como ChatGPT que producían respuestas detalladas y sorprendentemente humanas a las indicaciones de los usuarios, tanto expertos como novatos comenzaron a reflexionar sobre los posibles impactos de la tecnología en el trabajo, la educación y la creatividad.

Pero si bien los grandes modelos de lenguaje (LLM) actuales son asombrosamente capaces, también son sorprendentemente vulnerables, dice la profesora de Khoury, Alina Oprea. Ha estado estudiando la IA en un contexto de ciberseguridad durante más de una década y recientemente fue coautora de un informe que profundiza en estos ataques a la IA: cómo funcionan, cómo se clasifican y cómo pueden (y no pueden) ser mitigado.

"Es realmente difícil mantener segura la IA generativa", dice Oprea. “La escala de estos modelos y sus datos de entrenamiento crecerá con el tiempo, lo que sólo facilitará estos ataques. Y una vez que empiezas a hablar de IA generativa que va más allá del texto a imágenes y voz, la seguridad se convierte en una cuestión muy abierta”.

El informe, publicado por el Instituto Nacional de Estándares y Tecnología (NIST) del Departamento de Comercio, es una actualización del informe del que Oprea fue coautor el año pasado con Apostol Vassilev del NIST. Ese informe inicial trataba sobre IA predictiva más tradicional, pero con la popularidad de la IA generativa desde entonces, Opera y Vassilev dieron la bienvenida a los expertos en IA generativa Alie Fordyce y Hyrum Anderson de Robust Intelligence para ampliar el alcance del proyecto.

"Ahora tenemos académicos, gobiernos e industria trabajando juntos", señaló Oprea, "que es el público objetivo del informe".

Según el informe, los modelos de IA generativa deben su vulnerabilidad a diversos factores. Por un lado, señala Oprea, la mayoría de los ataques son "bastante fáciles de montar y requieren un conocimiento mínimo del sistema de IA". Por otro lado, los enormes conjuntos de datos de entrenamiento de los modelos son demasiado grandes para que los humanos puedan monitorearlos y validarlos. Y el código que sustenta los modelos no está automatizado; depende de la moderación humana y está expuesto a una intromisión humana maliciosa.

El resultado, según el cuarteto de investigadores, son cuatro tipos principales de ataques que confunden a los sistemas de IA y provocan su mal funcionamiento: ataques de evasión que alteran las entradas del modelo para cambiar sus respuestas, ataques de envenenamiento que corrompen los algoritmos subyacentes del modelo o los datos de entrenamiento, y la privacidad. ataques que inducen al modelo a revelar datos de entrenamiento confidenciales, como información médica, y ataques de abuso que introducen información incorrecta en fuentes legítimas de las que aprende el modelo. Al manipular las entradas del modelo, los atacantes pueden elegir sus salidas por adelantado.

"Esto se puede utilizar con fines comerciales, publicidad, para generar spam de malware o discursos de odio, cosas que el modelo normalmente no generaría", explica Oprea.

Sin sobrecargarse, los actores maliciosos pueden controlar los datos web en los que se entrena un modelo de IA, introducir una puerta trasera y luego dirigir sigilosamente el comportamiento del modelo desde allí. Dada la creciente popularidad de estos modelos, estas puertas traseras ya serían bastante preocupantes por sí solas. Pero el daño no termina ahí.

“Ahora tenemos estas aplicaciones integradas que utilizan LLM. Por ejemplo, una empresa crea un agente de correo electrónico que se integra con un LLM en segundo plano y ahora puede leer sus correos electrónicos y enviarlos en su nombre”, dice Oprea. “Pero los atacantes podrían utilizar la misma herramienta para enviar malware y spam a miles de personas. La superficie de ataque ha aumentado porque estamos integrando LLM en estas aplicaciones”.

Por muy destructivos y peligrosos que sean el discurso de odio y el spam masivo, existen preocupaciones de seguridad aún mayores en el horizonte.

"Algunas aplicaciones son críticas para la seguridad, como los vehículos autónomos", dice Oprea. "Si esos modelos hacen predicciones incorrectas, no se pueden utilizar".

Entonces, ¿qué puede hacerse? El equipo preparó el informe, que planean actualizar anualmente, para algunas audiencias: formuladores de políticas, desarrolladores de IA y académicos que pueden utilizar la taxonomía del informe como base o contexto para su propio trabajo. Todos estos grupos, dice Oprea, tienen trabajo que hacer para garantizar que los modelos de IA se alineen con los valores humanos, preserven la privacidad y funcionen en el mejor interés de los usuarios. Pero reconoce que abordar cada tema planteado en el informe es un desafío, y que cualquiera que pregone soluciones en lugar de mitigaciones está profundamente equivocado.

"Hay muchos más ataques que mitigaciones, y por cada mitigación que mencionamos, hay una compensación o una sobrecarga de rendimiento, incluida la degradación de la precisión del modelo", advierte Oprea. "Las mitigaciones no son gratuitas y proteger la IA es una tarea realmente desafiante, pero esperamos que el informe proporcione un punto de partida útil para comprender los ataques".

punto_img

Información más reciente

punto_img