Logotipo de Zephyrnet

Por qué necesita conocer la ascendencia de su IA

Fecha:

COMENTARIO

La inteligencia artificial (IA) está alterando rápidamente casi todos los aspectos de nuestra vida diaria, desde cómo trabajamos hasta cómo ingerimos información y cómo determinamos a nuestros líderes. Como ocurre con cualquier tecnología, la IA es amoral, pero puede usarse para hacer avanzar la sociedad o causar daño.

Los datos son los genes que impulsan las aplicaciones de IA. Es ADN y ARN, todos envueltos en uno. Como se suele decir cuando se construyen sistemas de software: “basura que entra/basura sale”. La tecnología de IA es tan precisa, segura y funcional como las fuentes de datos de las que depende. La clave para garantizar que la IA cumpla su promesa y evite sus pesadillas radica en la capacidad de mantener la basura fuera y evitar que prolifere y se replique en millones de aplicaciones de IA.

A esto se le llama procedencia de los datos, y no podemos esperar un día más para implementar controles que eviten que nuestro futuro de IA se convierta en un enorme montón de basura.

Los datos incorrectos conducen a modelos de IA que pueden propagar vulnerabilidades de ciberseguridad, información errónea y otros ataques a nivel mundial en segundos. de hoy IA generativa Los modelos (GenAI) son increíblemente complejos, pero, en esencia, los modelos GenAI simplemente predicen el mejor siguiente fragmento de datos para generar, dado un conjunto de datos previos existentes.

Una medida de precisión

Un modelo tipo ChatGPT evalúa el conjunto de palabras que componen la pregunta original formulada y todas las palabras en la respuesta del modelo hasta el momento para calcular la siguiente mejor palabra a generar. Lo hace repetidamente hasta que decide que ha dado una respuesta suficiente. Suponga que evalúa la capacidad del modelo para encadenar palabras que formen oraciones bien formadas y gramaticalmente correctas que estén relacionadas con el tema y, en general, sean relevantes para la conversación. En ese caso, los modelos actuales son sorprendentemente buenos: una medida de precisión.

Sumérgete más en si el texto producido por IA siempre transmite información "correcta" e indica apropiadamente el nivel de confianza de la información transmitida. Esto revela problemas que surgen de modelos que predicen muy bien en promedio, pero no tan bien en casos extremos, lo que representa un problema de robustez. Puede agravarse cuando los datos deficientes de los modelos de IA se almacenan en línea y se utilizan como datos de entrenamiento futuros para estos y otros modelos.

Los resultados deficientes pueden replicarse a una escala que nunca hemos visto, provocando un ciclo fatal descendente de la IA.

Si un mal actor quisiera ayudar en este proceso, podría alentar intencionalmente a que se produzcan, almacenen y propaguen datos adicionales malos, lo que llevaría a que surja aún más información errónea de los chatbots, o algo tan nefasto y aterrador como que los modelos de piloto automático de automóviles decidan que necesitan hacerlo. virar un automóvil rápidamente hacia la derecha a pesar de que haya objetos en el camino si "ven" una imagen especialmente diseñada frente a ellos (hipotéticamente, por supuesto).

Después de décadas, la industria del desarrollo de software, liderada por la Agencia de Seguridad de Infraestructura y Ciberseguridad, finalmente está implementando una seguro por diseño marco de referencia. Seguro por diseño exige que la ciberseguridad sea la base del proceso de desarrollo de software, y uno de sus principios básicos es exigir la catalogación de cada componente de desarrollo de software: un lista de materiales de software (SBOM) — para reforzar la seguridad y la resiliencia. Finalmente, la seguridad está reemplazando a la velocidad como el factor más crítico de comercialización.

Proteger los diseños de IA

La IA necesita algo similar. El circuito de retroalimentación de la IA evita técnicas comunes de defensa de la ciberseguridad del pasado, como el seguimiento de firmas de malware, la construcción de perímetros alrededor de los recursos de la red o el escaneo de códigos escritos por humanos en busca de vulnerabilidades. Debemos hacer que los diseños seguros de IA sean un requisito durante la infancia de la tecnología para que la IA pueda ser segura mucho antes de que se abra la caja de Pandora.

Entonces, ¿cómo solucionamos este problema? Deberíamos sacar una página del mundo académico. Formamos a los estudiantes con datos de formación altamente seleccionados, interpretados y transmitidos a través de una industria de profesores. Continuamos con este enfoque para enseñar a los adultos, pero se espera que los adultos se encarguen más de la curación de datos por sí mismos.

El entrenamiento del modelo de IA debe adoptar un enfoque de datos seleccionados en dos etapas. Para empezar, los modelos básicos de IA se entrenarían utilizando metodologías actuales que utilizan cantidades masivas de conjuntos de datos menos seleccionados. Estos modelos básicos de lenguaje grande (LLM) serían más o menos análogos a un bebé recién nacido. Luego, los modelos de nivel básico se entrenarían con conjuntos de datos altamente seleccionados, similares a cómo se enseña y se cría a los niños hasta convertirse en adultos.

El esfuerzo por crear grandes conjuntos de datos de entrenamiento seleccionados para todo tipo de objetivos no será pequeño. Esto es análogo a todo el esfuerzo que los padres, las escuelas y la sociedad ponen para proporcionar un ambiente de calidad e información de calidad para los niños a medida que se convierten (con suerte) en contribuyentes funcionales y de valor agregado a la sociedad. Ese es el nivel de esfuerzo necesario para construir conjuntos de datos de calidad para entrenar modelos de IA de calidad, que funcionen bien y mínimamente corruptos, y podría llevar a toda una industria de IA y humanos a trabajar juntos para enseñar a los modelos de IA a ser buenos en su trabajo objetivo. .

El estado actual del proceso de formación de IA muestra algunos signos de este proceso de dos etapas. Pero, debido a la infancia de la tecnología GenAI y de la industria, demasiada capacitación requiere un enfoque menos curado y de etapa uno.

Cuando se trata de seguridad de la IA, no podemos darnos el lujo de esperar una hora, y mucho menos una década. La IA necesita una aplicación 23andMe que permita la revisión completa de la "genealogía del algoritmo" para que los desarrolladores puedan comprender completamente la historia "familiar" de la IA para evitar que los problemas crónicos se repliquen, infecten los sistemas críticos de los que dependemos todos los días y creen daños económicos y sociales. que puede ser irreversible.

Nuestra seguridad nacional depende de ello.

punto_img

Información más reciente

punto_img