Logotipo de Zephyrnet

NIST advierte sobre afirmaciones de seguridad de 'aceite de serpiente' por parte de los fabricantes de IA

Fecha:

Los sistemas de IA predictivos y generativos siguen siendo vulnerables a una variedad de ataques y cualquiera que diga lo contrario no está siendo del todo honesto, según Apostol Vassilev, científico informático del Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU.

"A pesar de los importantes avances que han logrado la IA y el aprendizaje automático, estas tecnologías son vulnerables a ataques que pueden provocar fallos espectaculares con consecuencias nefastas", afirmó. dijo.

“Existen problemas teóricos a la hora de proteger los algoritmos de IA que simplemente no se han resuelto todavía. Si alguien dice lo contrario, está vendiendo aceite de serpiente”.

Vassilev fue coautor de un artículo sobre el tema con Alina Oprea (Northeastern University) y Alie Fordyce y Hyrum Anderson del taller de seguridad Robust Intelligence, que intenta categorizar los riesgos de seguridad que plantean los sistemas de inteligencia artificial. En general, los resultados no parecen buenos.

El proyecto [PDF], titulado “Aprendizaje automático adversario: una taxonomía y terminología de ataques y mitigaciones”, se deriva de la iniciativa Trustworthy AI del NIST, que refleja objetivos más amplios del gobierno de EE. UU. para garantizar la seguridad de la IA. Explora varias técnicas adversas de aprendizaje automático basadas en investigaciones de la industria durante las últimas décadas.

Los investigadores se han centrado en cuatro preocupaciones de seguridad específicas: evasión, envenenamiento, privacidad y ataques de abuso, que pueden aplicarse a modelos predictivos (por ejemplo, reconocimiento de objetos) o generativos (por ejemplo, ChatGPT).

"En un ataque de evasión, el objetivo del adversario es generar ejemplos adversarios, que se definen como muestras de prueba cuya clasificación se puede cambiar en el momento del despliegue a una clase arbitraria de elección del atacante con sólo una mínima perturbación", explica el documento, rastreando la técnica. Volver a la investigación desde 1988.

Como ejemplo, el NIST señala técnicas mediante las cuales las señales de alto se pueden marcar de manera que los sistemas de visión por computadora en vehículos autónomos las identifiquen erróneamente.

Luego están los ataques de envenenamiento en los que se agregan datos no deseados al entrenamiento de un modelo de aprendizaje automático y hacen que el modelo responda de una manera no deseada, generalmente después de recibir una entrada específica. El documento apunta a una Trabajo de investigación de Microsoft 2020 eso dice que los ataques de envenenamiento son lo que más preocupa a las organizaciones encuestadas sobre el aprendizaje automático adversario.

"Los ataques de envenenamiento, por ejemplo, se pueden montar controlando unas pocas docenas de muestras de entrenamiento, lo que representaría un porcentaje muy pequeño de todo el conjunto de entrenamiento", opinó Oprea.

Los ataques a la privacidad, que implican la reconstrucción de datos de entrenamiento que de otro modo serían inaccesibles, la extracción de datos memorizados, la realización de inferencias sobre datos protegidos y las intrusiones relacionadas, también son relativamente sencillos de llevar a cabo.

Por último, están los ataques de abuso, que implican reutilizar los sistemas generativos de IA para servir a los fines del atacante. "Los atacantes pueden utilizar las capacidades de los modelos GenAI para promover el discurso de odio o la discriminación, generar medios que inciten a la violencia contra grupos específicos o escalar operaciones ofensivas de ciberseguridad mediante la creación de imágenes, texto o código malicioso que permitan un ciberataque", explica el documento.

El objetivo de los autores al enumerar estas diversas categorías y variaciones de ataques es sugerir métodos de mitigación, ayudar a los profesionales de la IA a comprender las preocupaciones que deben abordarse cuando se entrenan e implementan los modelos, y promover el desarrollo de mejores defensas.

El artículo concluye observando que una IA confiable actualmente implica un equilibrio entre seguridad, por un lado, y equidad y precisión, por el otro.

“Los sistemas de IA optimizados únicamente para la precisión tienden a tener un rendimiento inferior en términos de solidez y equidad frente al adversario”, concluye. "Por el contrario, un sistema de inteligencia artificial optimizado para la solidez del adversario puede presentar una menor precisión y resultados de equidad deteriorados". ®

punto_img

Información más reciente

punto_img