Logotipo de Zephyrnet

Preservación de la privacidad en el aprendizaje automático (PPML)

Fecha:

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

El aprendizaje automático (ML) tiene un gran potencial para aumentar la productividad. Sin embargo, la calidad de los datos para entrenar modelos de ML debe ser excelente para brindar buenos resultados. Cualquier algoritmo de ML proporciona un rendimiento excelente solo cuando se alimentan datos enormes y perfectos para el entrenamiento. Para obtener datos de tal calidad, muchas organizaciones trabajan de manera cooperativa. Cuando tomamos datos de diferentes organizaciones, es muy importante mantener la confidencialidad, la privacidad y el reparto de beneficios de los datos. Este artículo le proporcionará una visión clara de cómo y por qué PPML (aprendizaje automático para preservar la privacidad) se ha vuelto muy importante cuando las empresas se trasladan a entornos en la nube o trabajan de forma cooperativa.

Introducción

La recopilación de volúmenes masivos de datos es un habilitador fundamental para los enfoques de inteligencia artificial (IA), y el aprendizaje automático (ML), que es el corazón de la IA, utiliza dichos datos para crear modelos predictivos. Sin embargo, recopilar los datos y utilizarlos para encontrar los patrones de comportamiento de los datos son dos cosas diferentes. Además, viene con varias dificultades para ser manejado por un individuo o una organización que incluye preocupaciones de privacidad como la violación de datos, pérdidas financieras y daños a la reputación.

"Gran parte del análisis de datos más sensible a la privacidad, que incluye principalmente algoritmos de búsqueda, sistemas de recomendación y redes adtech, está impulsado por el aprendizaje automático". [1]

El objetivo del aprendizaje automático que preserva la privacidad es cerrar la brecha entre la privacidad y recibir los beneficios del aprendizaje automático. Es un facilitador fundamental para la privatización de los datos adquiridos y el cumplimiento de las leyes de privacidad de datos. En este artículo se presentan las ideas centrales del aprendizaje automático para preservar la privacidad. Este artículo muestra cómo usar una combinación de aprendizaje automático y estrategias de privacidad para resolver problemas. Echa un vistazo a algunas de las herramientas que son accesibles. Este artículo tiene como objetivo proporcionar una comprensión completa del aprendizaje automático que preserva la privacidad para una amplia gama de aplicaciones.

Índice del contenido

  • ¿Qué es PPML?
  • Necesidad en la era actual
  • Los cuatro aspectos principales de la preservación de la privacidad
    • Privacidad de datos en la formación
    • Privacidad en la entrada
    • Privacidad en la salida
    •  Privacidad del modelo
  • Técnicas PPML
    • Privacidad diferencial
    • Cifrado homomórfico
    • Cómputo de múltiples partes
    • Aprendizaje federado
    • Técnicas de preservación de la privacidad de Ensemble
  • Resumen de varias técnicas de PPML
  • Herramientas PPML
    • Pysyft
    • Privacidad de Tensorflow
    • FLUJO DE CRIPTO
    • Medidor de privacidad de ML
    • CRIPTENO

¿Qué es PPML?

El aprendizaje automático para preservar la privacidad es un enfoque paso a paso para prevenir la fuga de datos en los algoritmos de aprendizaje automático. PPML permite muchas estrategias de mejora de la privacidad para permitir que múltiples fuentes de entrada entrenen modelos ML de manera cooperativa sin exponer sus datos privados en su forma original, como se muestra en la siguiente Figura 1.

Preservación de la privacidad

Figura 1: el concepto de PPML

Necesidad en la era actual

Con los beneficios de las aplicaciones de aprendizaje automático siempre existe el riesgo de privacidad de datos; Por ejemplo, si consideramos aplicaciones para atención médica o detección de intrusos. Los ataques cibernéticos y las filtraciones de datos son cada vez más frecuentes y costosos de manejar. Los ciberdelincuentes se sienten atraídos por grandes conjuntos de datos almacenados por motivos de capacitación porque pueden robar datos que se pueden usar para identificar personas u otra información valiosa que se puede vender. Además, los propios modelos ML presentan una vulnerabilidad, ya que se pueden extraer datos confidenciales de ellos. Por ejemplo, un artículo de investigación [2] demuestra cómo determinar si se utilizó un registro en el conjunto de datos de entrenamiento para un determinado modelo de ML. Pusieron a prueba su método en los sistemas de aprendizaje automático de Amazon y Google Cloud, con resultados de 74 % y 94 % de precisión, respectivamente.

En este entorno, la protección de la información de identificación personal (PII), o los datos que pueden utilizarse para identificar a una persona específica, es un problema importante. Además de proteger la PII de posibles fugas, las empresas deben cumplir con varios requisitos de protección de datos, como el Reglamento General de Protección de Datos (RGPD) en Europa. En el caso de una violación de GDPR, las sanciones pueden ser sustanciales. Los ataques cibernéticos ponen a las empresas que recopilan datos, así como a los usuarios finales a quienes pertenecen los datos, en peligro de consecuencias legales, financieras y reputacionales. No sería suficiente simplemente eliminar la PII de un conjunto de datos, como nombres y direcciones, porque se pueden usar otros cuasiidentificadores para identificar a un individuo específico en la colección. Por ejemplo, William Weld, el gobernador de Massachusetts, fue reidentificado utilizando registros de datos de salud aparentemente anónimos que contenían solo su fecha de nacimiento, sexo y código postal en un estudio realizado por Latanya Sweeney [3].

Preservando la privacidad al aumentar ML con diferentes estrategias que protegen la privacidad de los datos, ML se esfuerza por abordar estos desafíos. Estas técnicas incluyen técnicas de perturbación como la privacidad diferencial, enfoques criptográficos como el cifrado homomórfico y la computación multipartita, y enfoques específicos de aprendizaje automático como el aprendizaje federado.

El escenario actual basado en la nube para el aprendizaje automático, la seguridad de varios activos de cualquier organización y la seguridad de los datos dio origen al enfoque de ML que preserva la privacidad. Para hacer frente a este enfoque PPML, no habrá una solución única para todos los tipos de aplicaciones. Las diversas aplicaciones requieren varios tipos de atención a la privacidad. Además, debemos lograr un equilibrio entre las preocupaciones específicas del escenario y el requisito de desarrollar metodologías sólidas e independientes de la plataforma. Si bien la investigación sobre el aprendizaje automático para preservar la privacidad se ha disparado en los últimos años, todavía existe una brecha entre las teorías y sus aplicaciones en escenarios del mundo real.

Los cuatro aspectos principales de la preservación de la privacidad

Privacidad de datos en la formación

La seguridad de que una parte malintencionada no aplicará ingeniería inversa a los datos de entrenamiento. Si bien recopilar información sobre datos de entrenamiento y pesos de modelos es un poco más difícil que recopilar información de datos de entrada y salida de texto sin formato (el término técnico para no encriptar), investigaciones recientes han demostrado que reconstruir datos de entrenamiento y modelos de ingeniería inversa no es tan difícil como uno podría pensar.

Paper [4] Calcula la rapidez con la que los modelos de secuencias generativas (p. ej., modelos de lenguaje de caracteres) pueden memorizar información inusual dentro de un conjunto de entrenamiento. Carlini y Wagner usan Penn Treebank para entrenar un modelo de lenguaje de personajes con un "secreto": "el número aleatorio es ooooooooo", donde ooooooooo es un número de seguro social (falso). Demuestran cómo el descubrimiento de un secreto que han escondido dentro de su copia del conjunto de datos de Penn Treebank se puede utilizar para su beneficio (PTD). Calculan la cantidad de memoria en la red entrenando un modelo de lenguaje de caracteres en el 5% del PTD. Cuando la pérdida del conjunto de prueba es más baja, la memorización está en su punto máximo. Aquí es cuando el secreto es más ampliamente conocido.

2 Privacidad en la entrada

La garantía de que otras partes, incluido el desarrollador del modelo, no podrán ver los datos de entrada de un usuario.

Privacidad en la salida

La seguridad de que el resultado de un modelo solo es accesible para el cliente cuyos datos se infieren.

Privacidad del modelo

La seguridad de que una parte hostil no podrá robar el modelo. Muchas organizaciones brindan habilidades predictivas a los desarrolladores a través de API o, más recientemente, software descargado, y los modelos de IA pueden ser su pan y mantequilla. La última de las cuatro apuestas a examinar es la privacidad del modelo, que es crucial tanto para los intereses del usuario como de la empresa. Si sus competidores pueden imitar fácilmente sus modelos, las empresas tendrán pocos incentivos para crear productos innovadores o gastar dinero en mejorar las habilidades de IA (un acto que no es fácil de investigar).

Los principales productos y la propiedad intelectual de muchas empresas son modelos de aprendizaje automático; por lo tanto, que te roben uno es peligroso con graves consecuencias financieras. Además, un modelo se puede robar directamente o realizar ingeniería inversa utilizando sus resultados [5].

Técnicas PPML

Estos son los métodos utilizados para garantizar que los datos no puedan ser robados por un tercero. Como resultado, las tácticas que se enumeran a continuación se utilizan para contrarrestar varios ataques.

o Privacidad diferencial

La privacidad diferencial es un tipo de privacidad que le permite proporcionar información relevante sobre un conjunto de datos sin revelar ninguna información personal al respecto. Incluso si un atacante tiene acceso a todas las entradas en un conjunto de datos, el resultado de una operación de privacidad diferencial no se puede usar para vincular un registro específico a una persona, gracias a este método. En otras palabras, la presencia del registro de un individuo en el conjunto de datos no tiene un impacto (sustancial) en el resultado del análisis. Como resultado, el riesgo de privacidad es básicamente el mismo ya sea que una persona participe o no en el conjunto de datos. La privacidad diferencial se logra agregando ruido aleatorio al resultado, lo que se puede hacer a través de una variedad de procesos privados diferenciales, como los enfoques de respuesta aleatoria, exponencial y de Laplace.

o Cifrado homomórfico

El cifrado homomórfico (HE) es un método criptográfico para calcular datos cifrados que da como resultado una salida descifrada idéntica a la salida de la entrada original sin cifrar. El siguiente es un ejemplo de cómo se utiliza el enfoque:

a) El propietario de los datos cifra los datos mediante una función homomórfica y comparte el resultado con un tercero que es responsable de completar un determinado cálculo;

b) El tercero calcula los datos cifrados y proporciona la salida, que está cifrada debido a los datos de entrada cifrados;

c) El propietario de los datos descifra la salida y recibe el resultado del cálculo en los datos originales de texto sin formato.

La entrada y la salida sin cifrar no son accesibles para terceros durante este procedimiento.

o Cómputo de múltiples partes

MPC (Multi-Party Computation) es un sistema que permite a muchos participantes calcular una función sin revelar sus entradas privadas. Las partes son autosuficientes y desconfiadas unas de otras. El concepto fundamental es permitir que se realicen cálculos en datos privados manteniendo la privacidad de los datos. MPC se asegura de que cada participante solo aprenda del resultado y de su contribución tanto como sea posible.

Veremos varias estrategias seguras de MPC a continuación. [25] es un buen punto de partida para obtener más información.

Los circuitos ilegibles del protocolo criptográfico se usan comúnmente para la computación segura de dos partes en funciones booleanas (circuitos). Los pasos del protocolo son los siguientes:

• La primera parte, Alice, encripta (o distorsiona) la función (circuito) y la envía a la segunda parte, Bob, junto con su entrada encriptada;

• Bob encripta su entrada con la ayuda de Alice mediante transferencia olvidada, en la que Alice y Bob transfieren cierta información mientras que el remitente no sabe qué información se ha transferido;

• Bob evalúa la función utilizando ambas entradas cifradas y obtiene la salida cifrada;

Muchas técnicas de MPC utilizan el intercambio de secretos como estrategia. Por ejemplo, la técnica de intercambio de secretos (t, n) divide los secretos en n acciones y asigna una parte a cada participante. Cuando se fusionan t acciones, se puede reconstruir el secreto s, pero cuando se combinan t-1 de las acciones, no se expone información sobre s. Para decirlo de otra manera, el secreto se divide para que cualquier grupo de al menos t personas pueda reconstruirlo, pero ningún grupo de menos de t puede.

Tanto MPC como el cifrado homomórfico son enfoques de privacidad efectivos, pero tienen un alto costo para la comunicación y el procesamiento.

o Aprendizaje federado

El aprendizaje federado permite que los procesos de ML se descentralicen, lo que reduce la cantidad de información expuesta de los conjuntos de datos de los contribuyentes y reduce el peligro de que la privacidad de los datos y la identidad se vea comprometida. La idea básica detrás del aprendizaje federado es que un modelo M central de aprendizaje automático (ML) propiedad de una autoridad central (por ejemplo, una empresa) puede capacitarse aún más en nuevos conjuntos de datos privados de los contribuyentes de datos haciendo que cada colaborador entrene localmente con su conjunto de datos y luego actualizar el modelo central M (es decir, actualizar el parámetro del modelo).

El aprendizaje federado, en particular, funciona de la siguiente manera:

(1) Un grupo de n participantes (contribuyentes de datos) recibe el modelo central M;

(2) Cada participante actualiza el modelo M localmente entrenándolo en su propio conjunto de datos local Zl, generando un nuevo parámetro local l.

(3) La autoridad central recibe la actualización l de cada participante;

(4) La autoridad central combina los parámetros locales de cada participante para formar un nuevo parámetro que se utiliza para actualizar el modelo central. Este procedimiento puede continuar hasta que el modelo principal esté bien entrenado.

o Técnicas de preservación de la privacidad de Ensemble

No existe una bala de plata cuando se trata de lograr la privacidad en el aprendizaje automático. El nivel de privacidad proporcionado por las tácticas descritas aquí está determinado por varios factores, incluido el algoritmo de aprendizaje automático utilizado, las habilidades y recursos del adversario y el conteo. Como resultado, para obtener mayores grados de privacidad, puede ser necesario combinar o ensamblar varias técnicas de ML para preservar la privacidad.

Resumen de varias técnicas de PPML

Cada enfoque de aprendizaje automático para preservar la privacidad tiene como objetivo lograr distintos objetivos de privacidad mientras fortalece una infraestructura de ML y reduce la superficie de vulnerabilidad expuesta a un atacante. La Tabla 1 resume las características clave de los enfoques de ML para preservar la privacidad revisados ​​​​anteriormente, incluidos sus objetivos, fortalezas y limitaciones de privacidad.

Técnicas PPML

                               Fuente de la Tabla 1: Descripción general de las técnicas de preservación de la privacidad[6]

La privacidad diferencial protege la privacidad de distintos conjuntos de datos en un proceso de ML y proporciona una garantía comprobada de privacidad. Sin embargo, lograr el equilibrio correcto entre el valor de los datos anónimos y la privacidad, que están inversamente conectados, puede ser difícil.

El cifrado homomórfico le permite operar con datos cifrados manteniendo la funcionalidad de los conjuntos de datos originales; sin embargo, su alcance es bastante limitado y la escalabilidad puede ser un problema.

MPC permite que varias personas trabajen juntas para resolver un problema mediante el intercambio de datos cifrados. Esto se puede usar para (1) entrenar un modelo común de aprendizaje automático sin revelar información privada, lo que da como resultado la privacidad de la identidad, el conjunto de datos sin procesar y el conjunto de datos de características, y (2) calcular el resultado de un modelo de ML haciendo que las partes compartan sus entradas cifradas , lo que da como resultado la privacidad de entrada. La flexibilidad de trabajar con datos cifrados, como HE, tiene un costo en términos de comunicación, y la necesidad de actualizar el modelo o aplicar un enfoque de ML podría aumentar la sobrecarga de rendimiento. Además, el requisito de disponibilidad continua de las partes informáticas puede plantear problemas de escalabilidad, mientras que el uso de la aritmética de punto fijo limita el alcance de la aplicabilidad de ML.

El aprendizaje federado supera los inconvenientes del entrenamiento de modelos centralizado al permitir que los modelos se entrenen localmente sin necesidad de intercambiar conjuntos de datos de contribuyentes de datos, lo que garantiza la identidad, el conjunto de datos sin procesar y la privacidad del conjunto de datos de características. La red de dispositivos utilizada para entrenar el modelo, por otro lado, requiere altos costos de comunicación y disponibilidad de dispositivos durante el entrenamiento.

Herramientas PPML

o Pysyft

PySyft es una caja de herramientas de aprendizaje automático de código abierto basada en Python que es segura y privada. Es parte del programa Open Mined, que desarrolla frameworks de IA
y tecnologías que respetan la privacidad de las personas. La biblioteca admite diferentes técnicas de preservación de la privacidad, incluida la privacidad diferencial, HE, MPC y el aprendizaje federado. PySyft también amplía los marcos populares de aprendizaje profundo como PyTorch, TensorFlow y Keras.

o Privacidad de Tensorflow

TensorFlow Privacy (TFP) es una caja de herramientas de Python para entrenar y generar modelos de aprendizaje automático diferencialmente privados. La biblioteca se basa en TensorFlow de Google (https://www.tensorflow.org/), un marco de código abierto para la formación de aprendizaje automático tradicional que ignora las preocupaciones sobre la privacidad. Una de las metodologías clave de ML para preservar la privacidad de la biblioteca es entrenar un modelo de ML utilizando SDG privados diferenciales. TFP también se puede usar para calcular las garantías de privacidad que ofrece el mecanismo privado diferencial de elección, que se puede usar para (1) comparar modelos de ML en términos de privacidad y (2) tener en cuenta la pérdida de utilidad al elegir un modelo sobre otro.

Visite el sitio de GitHub para comenzar con la biblioteca TFP. https://github.com/tensorflow/privacy

o FLUJO DE CRIPTO

CrypTFlow es un sistema que utiliza conceptos de lenguajes de programación y MPC para brindar una solución para consultar modelos de ML de forma segura.

o Medidor de privacidad de ML

La integración de salvaguardias de privacidad en el proceso de ML utilizado para construir el modelo es tan importante como evaluar la resiliencia de un modelo de ML contra ataques específicos.

ML Privacy Meter es un paquete de Python que utiliza TensorFlow de Google para evaluar las amenazas a la privacidad en los modelos de aprendizaje automático. Tanto en los modelos de adversarios de caja blanca como de caja negra, la herramienta se puede utilizar para desarrollar ataques de inferencia de pertenencia. Después de eso, el programa puede calcular las calificaciones de riesgo de privacidad en función del modelo adversario seleccionado. Las puntuaciones de riesgo pueden verse como una medida de cuán precisos son tales ataques al modelo de interés. Finalmente, el programa puede visualizar los resultados y generar informes de privacidad.

Se recomienda visitar el repositorio de GitHub para obtener más detalles sobre la utilidad.

https://github.com/privacytrustlab/ml_privacy_meter

o CRIPTENO

CrypTen es un marco de aprendizaje automático que preserva la privacidad basado en la investigación. El programa se basa en PyTorch, una plataforma de aprendizaje automático de código abierto. El marco ahora es compatible con MPC, con la posibilidad de agregar soporte HE (Cifrado homomórfico) en el futuro.

Lea más artículos sobre Machine Learning en nuestro blog.

Referencia

[1] CF Kerry, “Protección de la privacidad en un mundo impulsado por la inteligencia artificial”, 2020. Consultado por última vez el 31 de enero de 2022, https://www.brookings.edu/research/protección-privacy-in-an-ai-driven-world /
[2] R. Shokri, M. Stronati, C. Song y V. Shmatikov, "Ataques de inferencia de membresía contra modelos de aprendizaje automático", en Simposio IEEE sobre seguridad y privacidad de 2017, SP 2017, San José, CA, EE. UU., mayo 22-26, 2017, págs. 3–18, IEEE Computer Society, 2017.
[3] L. Sweeney, “k-anonimato: un modelo para proteger la privacidad”, Int. J. Incierto. Conocimiento de la borrosidad. Sistema basado, vol. 10, núm. 5, págs. 557–570, 2002.
[4] Carlini, Nicolás, et al., The Secret Sharer: evaluación y prueba de la memorización no intencionada en redes neuronales (2019), 28º Simposio de seguridad de USENIX (USENIX Security 19).
[5] Tramèr, Florian, et al., Robo de modelos de aprendizaje automático a través de API de predicción (2016), 25º Simposio de seguridad de USENIX (USENIX Security 16).
[6]https://www.alexandra.dk/wp-content/uploads/2020/10/Alexandra-Instituttet-whitepaper-Privacy-Preserving-Machine-Learning-A-Practical-Guide.pdf

Para saber más sobre la autora visita su página de LinkedIn: https://in.linkedin.com/in/dulari-bhatt-283952144

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

punto_img

Información más reciente

punto_img