Logotipo de Zephyrnet

Fundamentos de clasificación de datos – DATAVERSITY

Fecha:

clasificación de datosclasificación de datos
Crevis/Shutterstock

El proceso de clasificación de datos puede describirse en términos generales como la organización de datos en categorías relevantes, lo que permite acceder a ellos y protegerlos de manera más eficiente. En términos más simples, el proceso de clasificación de datos clasifica los datos según sus necesidades de seguridad y facilita su localización y recuperación. La clasificación es especialmente útil para las organizaciones que almacenan cantidades de datos significativamente grandes.  

La clasificación de datos se puede utilizar para múltiples propósitos: iniciativas de seguridad de datos, mantenimiento del cumplimiento normativo y cumplimiento de otros objetivos comerciales. En algunas situaciones, la clasificación de datos se ha convertido en un requisito regulatorio, y los datos se ponen a disposición de las agencias gubernamentales, quienes exigen que se puedan buscar y recuperar dentro de los plazos designados. Debido a que la clasificación de datos respalda búsquedas y recopilación de datos fáciles y eficientes, el análisis de datos se convierte en un proceso más eficiente.

Julia Duncan, directora de la Universidad de Toronto, explicado

“Los datos están a nuestro alrededor. La clasificación de datos nos ayuda a comprender las formas más adecuadas de manejarlos y protegerlos: quién puede verlos o usarlos, dónde almacenarlos y durante cuánto tiempo, si se pueden compartir y qué medidas de protección son las más apropiadas. Ya sea para un proyecto de investigación, como parte de la recopilación de datos o para el uso diario de datos y su intercambio con fines académicos y administrativos, la clasificación de datos es un paso muy importante a medida que continuamos fortaleciendo la seguridad de los datos”.

El proceso de clasificación de datos también elimina la duplicación de datos, lo que, a su vez, mejora la precisión de los datos (calidad e integridad de los datos). 

El etiquetado de datos se aplica durante el proceso de clasificación de datos. Se considera un paso esencial en la clasificación de datos. Estas etiquetas se utilizan para identificar los datos y pueden comunicar el nivel de confidencialidad/sensibilidad (por motivos de seguridad) y el nivel de calidad de los datos. La sensibilidad de los datos determina su calificación de seguridad.

Etiquetado de datos

El etiquetado de datos identifica los datos al incluir la etiqueta dentro de los metadatos. Una "etiqueta" es una palabra clave, número o término que se asigna a un archivo de datos. En una empresa, una identificación de empleado puede proporcionar una forma única de identificar a los empleados individuales. Cuando se ingresa el número de empleado, el motor de búsqueda presenta un solo empleado, en lugar de varios empleados que comparten una palabra clave común. 

De manera similar, en un partido de fútbol, ​​se puede utilizar un número de asiento para comunicar la asignación de un asiento a una entrada específica, estableciendo una propiedad temporal. Un sistema de etiquetado dentro de los metadatos promueve la localización y el acceso a un archivo de datos de forma rápida y sencilla, y puede eliminar cualquier confusión sobre quién es el “dueño” del asiento.

El etiquetado de datos utiliza metadatos para proporcionar un proceso de identificación único, promoviendo la eficiencia.

Etiquetar datos es un paso esencial en el proceso de clasificación de datos. Las etiquetas se utilizan para comunicar el tipo de datos, su nivel de sensibilidad y su nivel de calidad de los datos. La sensibilidad normalmente se basa en la importancia o confidencialidad de los datos y está alineada con las medidas de seguridad adecuadas necesarias. 

Tipos comunes de datos

La clasificación de datos puede proporcionar una mejor comprensión y accesibilidad a los datos de la organización. Esta situación promueve el uso del análisis de datos y la mejora de la seguridad de los datos. El uso eficaz de la clasificación de datos puede ayudar a que una organización con una gran cantidad de datos almacenados funcione de manera más eficiente. 

Para comprender mejor cómo funciona la clasificación de datos, es importante comprender los tipos de datos más comunes, que se enumeran a continuación:

  • Datos públicos: Proporciona información que está disponible gratuitamente para que el público en general la lea, investigue y almacene. Por lo general, admite cantidades mínimas de seguridad de datos, porque se comparte fácilmente y tiene poco riesgo de dañar a las personas o al público en general. Ejemplos de datos públicos incluyen nombres de personas, noticias y artículos educativos, y algunos sitios web gubernamentales.
  • Datos privados: Contiene información que no debe compartirse con el público. Compartir este tipo de información (contraseñas, historial de navegación/investigación, números de tarjetas de crédito (sin números PIN ni fechas de vencimiento)) puede presentar un pequeño riesgo para un individuo u organización y, por lo general, se puede corregir rápidamente.
  • Datos internos: Normalmente, esto describe los datos utilizados específicamente dentro de una organización y se relaciona con las funciones internas de una organización. Ejemplos de datos internos incluyen planes comerciales, información personal de los empleados, correos electrónicos y memorandos. Los datos internos suelen estar distribuidos en diferentes niveles de seguridad.
  • Información confidencial: Sólo un número limitado de personas dentro de la organización puede acceder a datos confidenciales (a veces denominados “datos confidenciales”). El acceso a datos confidenciales puede implicar contraseñas especializadas o escaneos de retina para poder ver el contenido. Ejemplos de datos confidenciales son números de seguro social, registros médicos, números de tarjetas de crédito con números PIN y fechas de vencimiento.
  • Datos restringidos: Se trata de datos que, si se ven comprometidos, pueden dar lugar a multas legales masivas o cargos penales. Por lo general, tiene controles de seguridad muy estrictos para limitar el acceso a los datos y, a menudo, utiliza algún tipo de cifrado de datos. Si personas con intenciones maliciosas acceden a ella, la información patentada de una organización podría copiarse o volverse inaccesible, exigiendo un rescate. Los datos restringidos también pueden poner en riesgo la salud del público en general. Ejemplos de datos restringidos incluyen propiedad intelectual, información de salud protegida y algunos contratos federales. 

Métodos de clasificación de datos

El proceso de clasificación de datos normalmente incluye etiquetado para comunicar el tipo de datos, su correspondiente nivel de seguridad y su calidad. 

Básicamente se han desarrollado tres tipos de clasificación de datos: 

  • Clasificación de datos basada en contenido: Esto a menudo se centra en información confidencial (registros financieros, información de identificación personal) y utiliza software para inspeccionar e interpretar archivos mientras busca información confidencial.
  • Clasificación de datos basada en contexto: Utiliza software que se centra en información basada en el contexto, como la aplicación, su ubicación de origen o el creador, para determinar su ubicación de almacenamiento. 
  • Clasificación de datos basada en el usuario: Un proceso manual que requiere que la persona que realiza la tarea comprenda la clasificación de datos. Esta forma de clasificación de datos es significativamente más lenta y mucho más propensa a errores que los sistemas de clasificación de datos basados ​​en contenido y contexto, que utilizan software.

Datamation ha publicado una revisión de la clasificación. herramientas de software para el 2024.

Estándares de cumplimiento y clasificación de datos

Un número creciente de países, y algunos estados de EE. UU., han creado regulaciones y estándares de cumplimiento que requieren que las empresas y organizaciones establezcan un sistema de clasificación de datos. Los requisitos pueden variar según el país, la organización y los tipos de datos que utiliza. A continuación se enumeran algunos ejemplos de por qué el cumplimiento puede ser una preocupación.

  • Reglamento General de Protección de Datos (GDPR): Los esfuerzos de Europa por proteger la privacidad de sus ciudadanos dieron como resultado regulaciones que exigen que las empresas clasifiquen todos los datos recopilados. El GDPR se ocupa de datos relacionados con la raza, la atención médica, las opiniones políticas, el origen étnico y el uso de la biometría. (Las empresas que no almacenan cantidades masivas de datos pueden utilizar un sistema de clasificación bastante simple: el objetivo es proporcionar los datos solicitados a los funcionarios de la UE de manera rápida y eficiente).
  • Estándar de seguridad de datos de la industria de tarjetas de pago (PCI DSS): Creado por la industria de las tarjetas de crédito, el Requisito 9.6.1 estipula que las empresas y organizaciones deben "clasificar los datos para que se pueda determinar su sensibilidad". Esto no es una ley sino un acuerdo legal.
  • Ley de Responsabilidad y Portabilidad del Seguro de Salud (HIPAA): Esta es una ley federal de EE. UU. Considera La información de salud personal (PHI) es información confidencial y requiere que las instalaciones médicas protejan los registros médicos de las personas. La regla de privacidad de HIPAA restringe el uso y la divulgación de información de salud personal y requiere que los centros médicos y sus asociados desarrollen un sistema de clasificación de datos.
  • Ley de Privacidad del Consumidor de California (CCPA): El  CCPA establece que “la clasificación de datos debe identificar qué tipos de datos se venden, se comparten con terceros o se utilizan con fines de marketing. Cualquier solicitud de derechos para tipos de datos específicos también debe registrarse en el inventario de datos como prueba de que cumple con la CCPA”.

Es importante que las organizaciones investigar inquietudes legaleso consulte el asesoramiento de expertos al hacer negocios a través de Internet. 

Los desafíos de clasificar datos

El proceso de clasificación de datos es muy útil en términos de seguridad y recuperación de datos. Sin embargo, hay algunos problemas que pueden surgir. Algunos de los desafíos comunes son:

  • Falsos positivos: Esto ocurre cuando los mismos datos aparecen en diferentes contextos y diferentes formatos, y el software no los reconoce como un duplicado. El software de clasificación que no examina el contexto y el formato de los datos tiene una mayor probabilidad de generar clasificaciones falsas. Debido a que normalmente se utilizan grandes cantidades de datos en los proyectos de clasificación, incluso tasas de falsos positivos extremadamente pequeñas pueden distorsionar el proceso de clasificación.
  • Falsos negativos: Estos ocurren como resultado de una confusión con respecto al contexto. Por ejemplo, un nombre normalmente no se consideraría información confidencial. Sin embargo, cuando forma parte de una historia clínica, ese nombre pasa a ser información sensible. Clasificar datos sin comprender su contexto puede provocar que los datos se clasifiquen incorrectamente.
  • El costo: El precio de implementar y operar herramientas de clasificación de datos dependerá del número de controles establecidos y de la cantidad de datos que se procesen. La clasificación de datos puede resultar bastante costosa y engorrosa. Los esfuerzos manuales para clasificar grandes cantidades de datos pueden resultar extremadamente costosos, y mayores cantidades de datos cuestan más.

Se está experimentando con ChatGPT como herramienta para clasificar datos, pero existen preocupaciones sobre el funcionamiento del sistema. falta de seguridad.

punto_img

Información más reciente

punto_img