Logotipo de Zephyrnet

Lo que ChatGPT sabe sobre usted: el viaje de OpenAI hacia la privacidad de datos

Fecha:

privacidad de datos

Después de todas las preocupaciones planteadas por la interrupción de los datos de ChatGPT el pasado 20 de marzo, rápidamente observamos algunas reacciones del mundo exterior. ¿El más contundente? Italia prohíbe ChatGPT por problemas de privacidad de datos.

Casi un mes después del incidente, OpenAI ya ha tomado algunas medidas con respecto a la privacidad de los datos de los usuarios: La posibilidad de desactivar el historial de chat y exportar sus datos personales, es decir, los datos que guardan de tu interacción con ChatGPT.

Este artículo describe los dos principales acciones que OpenAI ha tomado con respecto a la privacidad de datos en la poderosa tecnología de generación de IA ChatGPT. Probaremos las dos nuevas funciones con una mirada más cercana a los datos que ChatGPT guarda de sus usuarios, para ayudarlo a comprender el formato dado y, por lo tanto, interpretar sus datos.

#1. Desactivar el historial de chat

El historial de ChatGPT es más que una forma de almacenar sus conversaciones con el chatbot para que pueda iniciar sesión en cualquier momento y consultar las conversaciones pasadas: Su historial de chat también se usa para entrenar y mejorar los modelos detrás de ChatGPT. 

El historial de chat se habilitó el 15 de diciembre de 2022, y seamos honestos: ¡todos nos beneficiamos del almacenamiento de nuestras conversaciones! Pero también es cierto que esta característica planteó algunas preocupaciones sobre la privacidad de los datos: ¿ChatGPT guardaba datos de conversación para entrenar sus modelos de IA? ¿Qué sucede si se compartieron datos confidenciales o personales en esas conversaciones?

¡Ahora OpenAI les ha dado a los usuarios el poder de controlar esto! Según la  Anuncio de OpenAI, a partir del 25 de abril, es posible deshabilitar el historial de chat para que las conversaciones ya no aparezcan en la barra lateral. Además, no se utilizarán para capacitación adicional, lo que brinda al usuario la opción de administrar sus datos.

Anteriormente, los usuarios podían borrar periódicamente su historial de chat a pedido, pero aún se podía usar cualquier conversación para realizar ajustes. A partir de ahora, si el historial de chat está deshabilitado, las conversaciones solo se conservan durante 30 días. Esto se hace en caso de que sea necesario revisar las conversaciones debido a un mal uso de la herramienta., antes de eliminarlos permanentemente.

Deshabilitar el historial de chat es bastante sencillo en el Ajustes control. Acceder Ajustes en la interfaz web, vaya a la sección inferior izquierda de la página principal. Aparecerá una pequeña ventana y allí encontrará el control para Historial de chat y capacitación:

Captura de pantalla hecha a sí misma desde la ventana de configuración de ChatGPT.

En este punto, estoy seguro de que también habrás notado el problema:
¿Por qué OpenAI combinó guardar su historial de chat con el uso de estos datos para entrenar sus modelos de IA?

Supongo que es una forma de micropresionar a los usuarios para que sigan usando sus conversaciones con fines formativos. Como punto a favor de OpenAI, desde mi experiencia profesional, veo claramente los beneficios de utilizar estos datos del mundo real para la formación.

#2. Exporte sus datos personales

OpenAI también ha agregado una segunda función nueva en la configuración de ChatGPT: an Exportar opción para obtener sus datos de ChatGPT y averigüe qué información almacena ChatGPT sobre usted.

Esta nueva opción puede verse como un paso hacia la Reglamento general de protección de datos de la UE (RGPD). El RGPD define, entre otras declaraciones, las obligaciones de los encargados del tratamiento de facilitar el acceso del interesado a sus datos personales. Esa es la razón por la cual las plataformas que recopilan información personal como Google or Netflix ahora están obligados a enviar a los usuarios los datos que tienen de ellos, en cualquier momento.

En la interfaz web, exportar datos personales también es muy sencillo. El Exportar datos El botón está disponible justo debajo del Historial de chat y capacitación uno:

Captura de pantalla hecha a sí misma desde la ventana de configuración de ChatGPT.

Solo un par de minutos antes de exportar los datos, recibí un archivo con mis conversaciones y otra información relevante en la bandeja de entrada de mi correo electrónico de registro.

Captura de pantalla hecha a sí misma desde la ventana de configuración de ChatGPT.

Después de confirmar la acción de exportación, esto es lo que recibí en mi buzón:

Captura de pantalla hecha a sí misma del correo electrónico de exportación de ChatGPT.

Al hacer clic en Descargar botón, tengo una carpeta con 5 archivos en html y json formatos.

Si este contenido educativo en profundidad es útil para usted, puede suscríbete a nuestra lista de correo de investigación de IA ser alertado cuando lancemos nuevo material. 

Las empresas que permiten a sus usuarios solicitar sus datos personales les obligan a cumplir con la normativa RGPD antes mencionada. Sin embargo, hay una trampa: el formato del archivo puede hacer que los datos sean ilegibles para la mayoría de la población. En este caso tenemos los dos html y json archivos Mientras html se puede leer directamente, json los archivos pueden ser más difíciles de interpretar. Personalmente, creo que las nuevas regulaciones también deberían imponer un formato legible de los datos. Pero por el momento ...

¡Exploremos los archivos uno por uno para aprovechar al máximo esta nueva función!

Chat

El primer archivo es chat.html que contiene todo mi historial de chat con ChatGPT. Las conversaciones se almacenan con su correspondiente título. Las preguntas del usuario y las respuestas de ChatGPT están etiquetadas como assistantuser, respectivamente.

Si alguna vez ha entrenado un modelo de IA usted mismo, este sistema de etiquetado le resultará familiar..

Observemos una conversación de muestra de mi historial:

Captura de pantalla hecha por mí mismo de mi historial de ChatGPT. El título de la conversación está resaltado en azul. Las etiquetas de usuario/asistente se resaltan en rojo y verde, respectivamente.

Comentarios de los usuarios

¿Alguna vez has visto los íconos de pulgar hacia arriba y pulgar hacia abajo (👍👎) junto a cualquier respuesta de ChatGPT?

Esta información es vista por ChatGPT como la retroalimentación para una respuesta dada., que luego ayudará en el entrenamiento del chatbot.

Esta información se almacena en el message_feedback.json archivo que contiene los comentarios que proporcionó a ChatGPT utilizando los iconos de pulgares. La información se almacena en el siguiente formato:

[{"message_id": <MESSAGE ID>, "conversation_id": <CONVERSATION ID>, "user_id": <USER ID>, "rating": "thumbsDown", "content": "{"tags": ["not-helpful"]}"}]

La thumbsDown cuentas de calificación para respuestas generadas incorrectamente, mientras que thumbsUp cuentas de las generadas correctamente.

Datos del usuario

También hay un archivo (user.json) que contiene los siguientes datos personales del usuario:

{"id": <USER ID>, "email": <USER EMAIL>, "chatgpt_plus_user": [true|false], "phone_number": <USER PONE>}

Algunas plataformas son conocidas por crear un modelo del usuario basado en su uso de la plataforma.. Por ejemplo, si el Google las búsquedas de un usuario son principalmente sobre programación, Google es probable que deduzca que el usuario es un programador y use esta información para mostrar anuncios personalizados.

ChatGPT podría hacer lo mismo con la información de las conversaciones, pero actualmente están obligados a incluir esta información inferida en los datos exportados..

⚠️ FYI, Se puede acceder a Lo que Google sabe sobre ellos desde Gmail haciendo clic en Cuenta >> Datos y privacidad >> Anuncios personalizados >> Mi centro de anuncios.

Historial completo de conversaciones

Hay otro archivo que contiene el historial de conversaciones y también incluye algunos metadatos. Este archivo se llama conversations.json y incluye información como la hora de creación, varios identificadores y el modelo detrás de ChatGPT, entre otros.

⚠️ Los metadatos proporcionan información sobre los datos principales.. Puede incluir información como el origen de los datos, su significado, su ubicación, su propiedad y su creación. Los metadatos representan información relacionada con los datos principales, pero no forman parte de ellos.

Exploremos la misma conversación sobre el Falla del sistema hidráulico A320 expuesto en el primer ejemplo de este json formato. La conversación en sí consiste en las siguientes preguntas y respuestas:

[usuario]: ¿Qué sucede cuando falla uno de los tres sistemas hidráulicos de un avión airbus 320? [asistente]: El avión Airbus A320 está equipado con tres sistemas hidráulicos independientes, cada uno de los cuales proporciona energía hidráulica a diferentes partes del avión. Los sistemas hidráulicos están etiquetados como verde, azul y amarillo […] [usuario]: ¿Sabes qué harán los pilotos en caso de una falla hidráulica doble?

[asistente]: En el caso de una falla hidráulica dual en un avión Airbus A320, los pilotos enfrentarán una situación más desafiante ya que los tres sistemas hidráulicos se ven afectados y no hay redundancia a la que recurrir […]

De esta simple conversación, OpenAI guarda bastante información. Repasemos la información almacenada:

{ "title":"A320 Hydraulic System Failure.", "create_time":1682368832.626937, "update_time":1682369104.0, "mapping": { [+] }, "moderation_results":[] "current_node":"<children_id4>", "plugin_ids":null, "id":"<conversation_id>"
}
  • Los principales campos de la json archivo contienen la siguiente información:

El campo moderation_results está vacío desde no se proporcionaron comentarios a ChatGPT en este caso concretoen Malasia XNUMX. Además, [+] símbolo en el mapping campo significa que hay más información disponible.

  • De hecho, la mapping El campo contiene toda la información sobre la conversación en sí. Dado que la conversación tiene cuatro interacciones, el mapeo almacena una children entrada por interacción.
{ "<mapping_id>":{ [+] }, "<parent_id>":{ [+] }, "<children_id>":{ [+] }, "<children_id2>":{ [+] }, "<children_id3>":{ [+] }, "<children_id4>":{ [+] }
}

Una vez más, la [+] El símbolo indica que hay más información disponible. ¡Repasemos las diferentes entradas!

  • mapping_id: Contiene un id para la conversación así como información sobre el tiempo de creación y el tipo de contenido, entre otros. Por lo que uno puede inferir, también crea un parent_id para la conversación y un children_id que corresponde a la siguiente interacción del usuario con ChatGPT. Aquí hay un ejemplo:
{ "id":"<mapping_id>", "message":{ "id":"<message_id>", "author":{ "role":"system", "name":null, "metadata":{ } }, "create_time":1682369079.639335, "update_time":null, "content":{ "content_type":"text", "parts":[ "" ] }, "end_turn":true, "weight":1.0, "metadata":{ }, "recipient":"all" }, "parent":"<parent_id>", "children":[ "<children_id>" ]
}
  • children_idX: Un nuevo children se crea una entrada para cada interacción, ya sea del usuario o del asistente. Dado que la conversación tiene cuatro interacciones, el json el archivo muestra cuatro children entradas. Cada children entrada tiene la siguiente estructura:
{ "id":"<children_id>", "message":{ "id":"<children_id>", "author":{ "role":"user", "name":null, "metadata":{ } }, "create_time":1682368832.628375, "update_time":null, "content":{ "content_type":"text", "parts":[ "What happens when one of the three hydraulic systems of a plane airbus 320 fails?" ] }, "end_turn":null, "weight":1.0, "metadata":{ "timestamp_":"absolute", "message_type":null }, "recipient":"all" }, "parent":"<mapping_id>", "children":[ "<children_id2>" ]
}

El Primer children entrada se anida dentro de la conversación al tener el mapping_id como padre y la segunda interacción — la respuesta de ChatGP — como segundo hijo.

  • Children que corresponden a una respuesta de ChatGPT contienen campos adicionales. Por ejemplo, para la segunda interacción:
{ "id":"<children_id2>", "message":{ "id":"<children_id2>", "author":{ "role":"assistant", "name":null, "metadata":{ } }, "create_time":1682368856.590211, "update_time":null, "content":{ "content_type":"text", "parts":[ "The Airbus A320 aircraft is equipped with three independent hydraulic systems, each providing hydraulic power to different parts of the aircraft. The hydraulic systems are labeled as Green, Blue, and Yellow.nnIf one of the hydraulic systems of an Airbus A320 aircraft fails, the other two systems are designed to provide redundancy and ensure that the aircraft remains controllable. The remaining systems will automatically take over the functions of the failed system, so there should be no loss of control of the aircraft.nnHowever, the failure of one hydraulic system will result in a reduction of hydraulic pressure, which can affect the performance of some aircraft systems. For example, if the Green hydraulic system fails, some components like the slats, flaps, and some spoilers will be affected as they are powered by the Green system only. This can cause the aircraft to experience reduced maneuverability and increased drag, which can affect the ability of the aircraft to climb or maintain altitude.nnIn such a situation, the pilots will follow the procedures outlined in the aircraft's emergency checklist to manage the situation and ensure that the aircraft is flown safely to the nearest suitable airport for landing. The exact procedures will depend on the nature of the failure, but the pilots will prioritize maintaining control of the aircraft and ensuring the safety of the passengers and crew." ] }, "end_turn":true, "weight":1.0, "metadata":{ "message_type":null, "model_slug":"text-davinci-002-render-sha", "finish_details":{ "type":"stop", "stop":"<|im_end|>" }, "timestamp_":"absolute" }, "recipient":"all" }, "parent":"<children_id>", "children":[ "<children_id3>" ]
}

En el caso de una respuesta de ChatGPT, obtenemos información sobre el modelo detrás de ChatGPT y las palabras de parada. También muestra la primera children como lo parent y el tercero children como la siguiente interacción.

El archivo completo se puede encontrar en este GitHub esencia.

Comparación de modelos

¿Alguna vez ha usado el botón "Regenerar respuesta" cuando no estaba completamente convencido por la respuesta proporcionada por ChatGPT?

Captura de pantalla hecha a sí misma del botón Regenerar respuesta en ChatGPT.

¡Esta información de retroalimentación también se almacena!

Hay un último archivo llamado model_comparisons.json esa contiene fragmentos de las conversaciones y los intentos consecutivos cada vez que ChatGPT regeneró la respuesta. La información contiene solo el texto sin el título, pero incluye algunos otros metadatos. Aquí está la estructura básica de este archivo:

{ "id":"<id>", "user_id":"<user_id>", "input":{[+]}, "output":{[+]}, "metadata":{[+]}, "create_time": "<time>"
}

La metadata El campo contiene información importante, como el país y el continente donde tuvo lugar la conversación, e información sobre el https esquema de acceso, entre otros. La parte interesante de este archivo viene en el input/output entradas:

Entrada

La input contiene una colección de mensajes de la conversación original. Las interacciones se etiquetan según el autor y, como en los casos anteriores, también se almacena alguna información adicional. Observemos los mensajes almacenados para nuestra conversación de muestra:

[sistema]: Usted es ChatGPT, un gran modelo de lenguaje entrenado por OpenAI, basado en la arquitectura GPT-3.5. Límite de conocimiento: 2021–09n Fecha actual: 2023–04–07. [usuario]: ¿Qué sucede cuando falla uno de los tres sistemas hidráulicos de un avión airbus 320? [asistente]: El avión Airbus A320 está equipado con tres sistemas hidráulicos independientes, cada uno de los cuales proporciona energía hidráulica a diferentes partes del avión. Los sistemas hidráulicos están etiquetados como verde, azul y amarillo […] [usuario]: ¿Sabes qué harán los pilotos en caso de una falla hidráulica doble? [asistente]: En el caso de una falla hidráulica dual en un avión Airbus A320, los pilotos enfrentarán una situación más desafiante ya que los tres sistemas hidráulicos se ven afectados y no hay redundancia a la que recurrir […]

User/Assistant se esperan entradas, pero estoy seguro de que en este punto todos nos preguntamos ¿Por qué hay un system ¿etiqueta?

Y además, ¿Por qué alimentan una declaración inicial como esta al comienzo de cada conversación?

¿ChatGPT se alimenta previamente con la fecha actual en cualquier conversación nueva?

esas entradas son los llamados mensajes del sistema.

Mensajes del sistema

Los mensajes del sistema dan instrucciones generales al asistente. Ayudan a fijar el comportamiento del asistente.. En la interfaz web, los mensajes del sistema son transparentes para el usuario, por lo que no los vemos directamente.

El beneficio del mensaje del sistema es que permite al desarrollador ajustar el asistente sin que la solicitud forme parte de la conversación.. Los mensajes del sistema se pueden alimentar utilizando la API. Por ejemplo, si está creando un asistente de ventas de automóviles, un posible mensaje del sistema podría ser “Eres un asistente de ventas de autos. Use un tono amigable y haga preguntas a los usuarios hasta que comprenda su necesidad. Luego, explícales los autos disponibles que coincidan con sus preferencias”. Incluso puede alimentar la lista de vehículos, especificaciones y precios para que el asistente también pueda brindar esta información.

Salida

La entrada de salida contiene las respuestas dadas por ChatGPT y las pruebas consecutivas cada vez que presiona el Regenerar respuesta botón:

{ "output":{ "feedback_version":"inline_regen_feedback:a:1.0", "ui_feature_name":"inline_regen_feedback", "ui_feature_variant":"a", "ui_feature_version":"1.0", "feedback_step_1":{[+]}, "feedback_step_2":{ "original_turn":[ { "id":"<original_turn_id>", "author":{[+]}, "create_time":1680877473.736083, "update_time":null, "content":{<original_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "new_turn":[ { "id":"<new_turn_id>", "author":{[+]}, "create_time":1680877502.81384, "update_time":null, "content":{<new_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "completion_comparison_rating":"new", "new_completion_placement":"not-applicable", "feedback_start_time":1680877456156, "compare_step_start_time":1680877456156, "new_completion_load_start_time":1680877456156000, "new_completion_load_end_time":1680877502976, "frontend_submission_time":1680877507949 } }
}

Como se observó anteriormente, el feedback_step_1 La entrada almacena información sobre los comentarios de pulgar hacia arriba/pulgar hacia abajo mencionados anteriormente.

La información de regeneración se almacena en el feedback_step_2 entrada con la primera subentrada original_turn para la respuesta original y la respuesta reintentada bajo new_turn.

¡Y esa es toda la información que OpenAI guarda sobre nuestras interacciones con ChatGPT! Creo que tener una idea de qué información se almacena puede ser útil para dos propósitos principales.

En primer lugar, en el mundo actual de los datos, es importante cuidar nuestra privacidad y estar al tanto de la información que las plataformas almacenan e infieren sobre nosotros. En segundo lugar, conocer la forma en que se estructura y maneja la información puede ayudarnos a construir modelos personalizados utilizando ChatGPT como punto de partida. Por ejemplo, al examinar nuestros propios datos, nos dimos cuenta de que puede alimentar a ChatGPT con mensajes del sistema para orientar al agente al propósito que queremos que el agente trabaje de manera transparente para el usuario.

Resumen

En este artículo, hemos revisado las acciones tomadas por OpenAI con respecto a la privacidad de datos de los usuarios como respuesta a las inquietudes planteadas durante los últimos meses.

Tanto la posibilidad de desactivar el historial de chat como la nueva función para exportar tus datos personales en cualquier momento son pasos claros para proteger a los usuarios de ChatGPT. Personalmente, considero estos pasos como un compromiso para priorizar la privacidad de los datos al cumplir con las regulaciones de protección de datos relevantes. La transparencia y la seguridad son clave para generar confianza y garantizar un uso responsable de la IA.

Desde nuestra perspectiva - el lado del usuario - Creo que merece la pena estar al tanto de las posibilidades de gestionar la privacidad de nuestros datos. Especialmente con respecto a estas dos nuevas características que controlan puntos fundamentales como asegurarse de que sus interacciones con ChatGPT no se utilicen con fines de capacitación si no lo desea, o recibir explícitamente los datos exactos que una empresa tiene sobre usted.

Por supuesto, existen otros riesgos asociados con el uso de esta tecnología. Por ejemplo, los usuarios también deben ser conscientes de políticas de retención de datos. Eso es saber cuánto tiempo retiene la plataforma los datos, que idealmente debería ser el mínimo necesario. Entendiendo el uso previsto de los datos usted proporciona a la plataforma AI y ser informado si la plataforma comparte sus datos con terceros y cuál es el propósito del intercambio debe ser también parte de nuestras principales preocupaciones.

Al considerar estos factores, los usuarios pueden tomar decisiones informadas sobre la privacidad de sus datos al usar ChatGPT o cualquier otro modelo de lenguaje grande.

Es importante ser proactivo para comprender cómo se manejan sus datos y tomar medidas para proteger sus derechos de privacidad.


¡Y eso es todo! ¡Muchas gracias por leer!

Espero que este artículo ayude entender la información que ChatGPT está ocultando de nuestras conversaciones, Así como a administrar las nuevas características de OpenAI hacia la privacidad de datos.

También puedes suscribirte a mi Newsletter para estar atento a nuevos contenidos. Especialmentesi estás interesado en artículos sobre ChatGPT.


Este artículo se publicó originalmente el Hacia la ciencia de datos y re-publicado a TOPBOTS con permiso del autor.

¿Disfrutas este artículo? Regístrese para obtener más actualizaciones de investigación de IA.

Le informaremos cuando publiquemos más artículos de resumen como este.

punto_img

Información más reciente

punto_img