¿Cómo funciona la deduplicación de datos? - Blog de IBM

¿Cómo funciona la deduplicación de datos? – Blog de IBM

Los últimos años han sido testigos de una explosión en la proliferación de unidades de almacenamiento. Estas grandes unidades de almacén han surgido a nivel nacional como una industria en auge por una razón: la persona promedio ahora tiene más posesiones de las que sabe qué hacer con ellas.

La misma situación básica también afecta al mundo de las tecnologías de la información. Estamos en medio de una explosión de datos. Incluso los objetos cotidianos relativamente simples ahora generan datos por sí solos de forma rutinaria gracias a Internet de los objetos (IO) funcionalidad. Nunca antes en la historia se habían creado, recopilado y analizado tantos datos. Y nunca antes tantos administradores de datos habían luchado con el problema de cómo almacenar tantos datos.

Es posible que inicialmente una empresa no reconozca el problema o su magnitud y luego tenga que encontrar una solución de mayor almacenamiento. Con el tiempo, es posible que la empresa también supere ese sistema de almacenamiento, lo que requerirá una inversión aún mayor. Inevitablemente, la empresa se cansará de este juego y buscará una opción más barata y sencilla, lo que nos lleva a deduplicación de datos.

Aunque muchas organizaciones utilizan técnicas de deduplicación de datos (o “desduplicación”) como parte de su sistema de gestión de datos, no muchas entienden realmente qué es el proceso de deduplicación y qué pretende hacer. Entonces, desmitifiquemos la deduplicación y expliquemos cómo funciona la deduplicación de datos.

¿Qué hace la deduplicación?

Primero, aclaremos nuestro término principal. La deduplicación de datos es un proceso que utilizan las organizaciones para optimizar su almacenamiento de datos y reducir la cantidad de datos que archivan mediante la eliminación de copias redundantes de datos.

Además, debemos señalar que cuando hablamos de datos redundantes, en realidad estamos hablando a nivel de archivos y nos referimos a una proliferación desenfrenada de archivos de datos. Entonces, cuando hablamos de los esfuerzos de deduplicación de datos, lo que en realidad se necesita es un sistema de deduplicación de archivos.

¿Cuál es el objetivo principal de la deduplicación?

Algunas personas tienen una noción incorrecta sobre la naturaleza de los datos, viéndolos como un bien que simplemente existe para ser recolectado y cosechado, como las manzanas de un árbol de su propio patio trasero.

La realidad es que cada nuevo archivo de datos cuesta dinero. En primer lugar, normalmente cuesta dinero obtener dichos datos (mediante la compra de listas de datos). O requiere una inversión financiera sustancial para que una organización pueda recopilar datos por sí misma, incluso si se trata de datos que la propia organización produce y recopila orgánicamente. Por lo tanto, los conjuntos de datos son una inversión y, como cualquier inversión valiosa, deben protegerse rigurosamente.

En este caso, estamos hablando de espacio de almacenamiento de datos, ya sea en forma de servidores de hardware locales o mediante almacenamiento en la nube a través de una nube en el centro de datos—que debe ser comprado o arrendado.

Por lo tanto, las copias duplicadas de datos que han sido replicados restan valor al resultado final al imponer costos de almacenamiento adicionales más allá de los asociados con el sistema de almacenamiento primario y su espacio de almacenamiento. En resumen, se deben dedicar más activos de medios de almacenamiento para dar cabida tanto a los datos nuevos como a los ya almacenados. En algún momento de la trayectoria de una empresa, los datos duplicados pueden convertirse fácilmente en una responsabilidad financiera.

Entonces, en resumen, el objetivo principal de la deduplicación de datos es ahorrar dinero permitiendo a las organizaciones gastar menos en almacenamiento adicional.

Beneficios adicionales de la deduplicación

También hay otras razones más allá de la capacidad de almacenamiento para que las empresas adopten soluciones de deduplicación de datos, probablemente ninguna más esencial que la protección y mejora de los datos que brindan. Las organizaciones refinan y optimizan las cargas de trabajo de datos deduplicados para que se ejecuten de manera más eficiente que los datos plagados de archivos duplicados.

Otro aspecto importante de la deduplicación es cómo ayuda a potenciar una rápida y exitosa desastre esfuerzo de recuperación y minimiza la cantidad de pérdida de datos que a menudo puede resultar de tal evento. La deduplicación ayuda a habilitar un proceso de respaldo sólido para que el sistema de respaldo de una organización esté a la altura de la tarea de manejar sus datos de respaldo. Además de ayudar con las copias de seguridad completas, la deduplicación también ayuda en los esfuerzos de retención.

Otro beneficio más de la deduplicación de datos es lo bien que funciona en conjunto con infraestructura de escritorio virtual (VDI) implementaciones, gracias al hecho de que los discos duros virtuales detrás de los escritorios remotos del VDI funcionan de manera idéntica. Popular Escritorio como servicio (DaaS) Los productos incluyen Azure Virtual Desktop de Microsoft y su Windows VDI. Estos productos crean máquinas virtuales (VM), que se crean durante el proceso de virtualización del servidor. A su vez, estas máquinas virtuales potencian la tecnología VDI.

Metodología de deduplicación

La forma más utilizada de deduplicación de datos es la deduplicación en bloques. Este método funciona mediante el uso de funciones automatizadas para identificar duplicaciones en bloques de datos y luego eliminar esas duplicaciones. Al trabajar en este nivel de bloque, se pueden analizar fragmentos de datos únicos y especificarlos como dignos de validación y preservación. Luego, cuando el software de deduplicación detecta una repetición del mismo bloque de datos, esa repetición se elimina y en su lugar se incluye una referencia a los datos originales.

Esa es la forma principal de deduplicación, pero no es el único método. En otros casos de uso, funciona un método alternativo de deduplicación de datos a nivel de archivo. El almacenamiento de instancia única compara copias completas de datos dentro del servidor de archivos, pero no fragmentos o bloques de datos. Al igual que su método homólogo, la deduplicación de archivos depende de mantener el archivo original dentro del sistema de archivos y eliminar copias adicionales.

Cabe señalar que las técnicas de deduplicación no funcionan de la misma manera que los algoritmos de compresión de datos (p. ej., LZ77, LZ78), aunque es cierto que ambos persiguen el mismo objetivo general de reducir las redundancias de datos. Las técnicas de deduplicación logran esto a una escala macro mayor que los algoritmos de compresión, cuyo objetivo no es tanto reemplazar archivos idénticos con copias compartidas como codificar redundancias de datos de manera más eficiente.

Tipos de deduplicación de datos

Existen diferentes tipos de deduplicación de datos según cuando El proceso de deduplicación ocurre:

Deduplicación en línea: Esta forma de deduplicación de datos ocurre en el momento (en tiempo real) mientras los datos fluyen dentro del sistema de almacenamiento. El sistema de deduplicación en línea transporta menos tráfico de datos porque no transfiere ni almacena datos duplicados. Esto puede conducir a una reducción en la cantidad total de ancho de banda que necesita esa organización.
Deduplicación posproceso: Este tipo de deduplicación se lleva a cabo después de que los datos se hayan escrito y colocado en algún tipo de dispositivo de almacenamiento.

Aquí vale la pena explicar que ambos tipos de deduplicación de datos se ven afectados por los cálculos hash inherentes a la deduplicación de datos. Estos criptográfico Los cálculos son fundamentales para identificar patrones repetidos en los datos. Durante las deduplicaciones en línea, esos cálculos se realizan en el momento, lo que puede dominar y abrumar temporalmente la funcionalidad de la computadora. En las deduplicaciones de posprocesamiento, los cálculos de hash se pueden realizar en cualquier momento después de agregar los datos de una manera y en un momento que no sobrecargue los recursos informáticos de la organización.

Las sutiles diferencias entre los tipos de deduplicación no terminan ahí. Otra forma de clasificar los tipos de deduplicación se basa en donde tales procesos ocurren.

Deduplicación de origen: Esta forma de deduplicación se lleva a cabo cerca del lugar donde realmente se generan nuevos datos. El sistema escanea esa área y detecta nuevas copias de archivos, que luego se eliminan.
Deduplicación objetivo: Otro tipo de deduplicación es como una inversión de la deduplicación de origen. En la deduplicación de destino, el sistema deduplica cualquier copia que se encuentre en áreas distintas a donde se crearon los datos originales.

Debido a que se practican diferentes tipos de deduplicación, las organizaciones con visión de futuro deben tomar decisiones cuidadosas y consideradas con respecto al tipo de deduplicación elegida, equilibrando ese método con las necesidades particulares de esa empresa.

En muchos casos de uso, el método de deduplicación elegido por una organización puede muy bien reducirse a una variedad de variables internas, como las siguientes:

¿Cuántos y qué tipo de conjuntos de datos se están creando?
El sistema de almacenamiento primario de la organización.
¿Qué entornos virtuales están en uso?
En qué aplicaciones confía la empresa

Desarrollos recientes en deduplicación de datos

Como toda producción informática, la deduplicación de datos está preparada para hacer un uso cada vez mayor de inteligencia artificial (AI) a medida que continúa evolucionando. La deduplicación se volverá cada vez más sofisticada a medida que desarrolle aún más matices que le ayuden a encontrar patrones de redundancia a medida que se escanean bloques de datos.

Una tendencia emergente en la deduplicación es el aprendizaje por refuerzo. Esto utiliza un sistema de recompensas y sanciones (como en el entrenamiento de refuerzo) y aplica una política óptima para separar registros o fusionarlos.

Otra tendencia que vale la pena observar es el uso de métodos de conjunto, en los que se utilizan diferentes modelos o algoritmos en conjunto para garantizar una precisión aún mayor dentro del proceso de deduplicación.

El dilema actual

El mundo de TI está cada vez más obsesionado con el problema actual de la proliferación de datos y qué hacer al respecto. Muchas empresas se encuentran en la incómoda posición de querer retener todos los datos que han trabajado para acumular y al mismo tiempo querer guardar sus nuevos datos desbordantes en cualquier contenedor de almacenamiento posible, aunque sólo sea para quitarlos del camino.

Si bien ese dilema persiste, el énfasis en los esfuerzos de deduplicación de datos continuará a medida que las organizaciones vean la deduplicación como la alternativa más barata a comprar más almacenamiento. Porque, en última instancia, aunque entendemos intuitivamente que las empresas necesitan datos, también sabemos que los datos a menudo requieren deduplicación.

Descubra cómo IBM Storage FlashSystem puede ayudarle con sus necesidades de almacenamiento

¿Le resultó útil este artículo?

SíNo

Más de la nube

Enero 29, 2024

Continuidad del negocio versus recuperación ante desastres: ¿Qué plan es el adecuado para usted?

7 min leer – Los planes de continuidad del negocio y recuperación ante desastres son estrategias de gestión de riesgos en las que confían las empresas para prepararse ante incidentes inesperados. Si bien los términos están estrechamente relacionados, existen algunas diferencias clave que vale la pena considerar al elegir cuál es el adecuado para usted: Plan de continuidad del negocio (BCP): un BCP es un plan detallado que describe los pasos que una organización tomará para regresar a las funciones comerciales normales en el caso de un desastre. Mientras que otros tipos de planes podrían centrarse en un aspecto específico de recuperación e interrupción…

Enero 29, 2024

IBM Tech Now: 29 de enero de 2024

<1 min leer – Bienvenido IBM Tech Now, nuestra serie web de videos que presenta las últimas y mejores noticias y anuncios en el mundo de la tecnología. Asegúrese de suscribirse a nuestro canal de YouTube para recibir una notificación cada vez que se publique un nuevo vídeo de IBM Tech Now. IBM Tech Now: Episodio 91 En este episodio, cubrimos los siguientes temas: IBM Think 2024 Reservas de IBM Cloud en servidores virtuales de IBM Cloud para el cuadrante verde de VPC Verdantix Manténgase conectado Puede consultar IBM...

Hombre con gafas sentado en una silla con las piernas cruzadas y una mano en el teclado de una computadora portátil abierta

Enero 22, 2024

Ahora aceptando reservas: IBM Cloud Virtual Servers para VPC

2 min leer – A medida que las organizaciones trabajan para reducir el gasto dentro de los entornos de nube empresarial, a menudo enfrentan el desafío de contar con opciones de pago únicas para todos a través de sus proveedores de nube. A medida que las hojas de ruta y las prioridades cambian en un contexto de capital reducido y retorno de la inversión ajustado, las organizaciones apuntan a minimizar el riesgo de gasto durante todo el año y crear entornos presupuestarios más predecibles. Cuando se trata de diseñar sus operaciones de computación en la nube, la planificación avanzada vale la pena con IBM Cloud Reservations en IBM Cloud Virtual Servers para VPC. ¿Qué son IBM...?

Enero 19, 2024

Cómo construir una estrategia exitosa de recuperación ante desastres

6 min leer – Ya sea que su industria enfrente desafíos derivados de conflictos geopolíticos, las consecuencias de una pandemia global o una agresión creciente en el espacio de la ciberseguridad, el vector de amenazas para las empresas modernas es innegablemente poderoso. Las estrategias de recuperación ante desastres proporcionan el marco para que los miembros del equipo vuelvan a poner en funcionamiento una empresa después de un evento no planificado. Es comprensible que en todo el mundo la popularidad de las estrategias de recuperación ante desastres esté aumentando. El año pasado, las empresas gastaron 219 mil millones de dólares solo en ciberseguridad y soluciones, un aumento del 12% con respecto a 2022, según un informe reciente de…

Boletines informativos de IBM

Obtenga nuestros boletines y actualizaciones de temas que brindan el liderazgo intelectual más reciente y conocimientos sobre tendencias emergentes.

Subscribirme Ahora

Más boletines

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://www.ibm.com/blog/how-does-data-deduplication-work/

Inteligencia de datos generativa

¿Cómo funciona la deduplicación de datos? – Blog de IBM

¿Qué hace la deduplicación?

¿Cuál es el objetivo principal de la deduplicación?

Beneficios adicionales de la deduplicación

Metodología de deduplicación

Tipos de deduplicación de datos

Desarrollos recientes en deduplicación de datos

El dilema actual

Más de la nube

Continuidad del negocio versus recuperación ante desastres: ¿Qué plan es el adecuado para usted?

IBM Tech Now: 29 de enero de 2024

Ahora aceptando reservas: IBM Cloud Virtual Servers para VPC

Cómo construir una estrategia exitosa de recuperación ante desastres

Boletines informativos de IBM

Resúmenes de noticias cuánticas: 11 de mayo de 2024: Noticias del DOE, Infleqtion, Mesa Photonics, Atlantic Quantum, HighRI Optics y Amethyst Research • BBVA • NICT, RIKEN,...

Gaby Diamant, fundadora y directora ejecutiva de Bridgewise

Información más reciente

Cualidades de un buen anillo de diamantes cultivados en laboratorio

China e India son civilizaciones consagradas y vecinos importantes entre sí: enviado chino Xu Feihong

El Instituto Internacional de Tecnología de la Información de Hyderabad alcanza un hito en el dominio de los semiconductores

OpenAI resta importancia a los rumores sobre el motor de búsqueda web GPT-5

IA y Web 3.0: una convergencia arriesgada de tecnologías

Presentación del proyecto de oportunidad de financiación colectiva de Orchid Craftworks por parte de Indiegogo