Logotipo de Zephyrnet

Una breve historia del modelado de datos – DATAVERSITY

Fecha:

modelado de datosmodelado de datos

El modelado de datos es el "acto" de crear un modelo de datos (físico, lógico, conceptual, etc.) e incluye definir y determinar las necesidades y objetivos de datos de una organización. El acto de modelado de datos define no solo los elementos de datos, sino también las estructuras que forman y las relaciones entre ellos. El desarrollo de un modelo de datos requiere que los modeladores de datos trabajen en estrecha colaboración con el resto de la organización para establecer los objetivos y los usuarios finales de los sistemas de información para establecer los procesos.

Un modelo de datos contiene "elementos de datos" (por ejemplo, el nombre de un cliente, una dirección o una imagen de un avión) que están estandarizados y organizados en patrones, lo que les permite relacionarse entre sí. El lenguaje de programación utilizado influye en la forma del modelo, al igual que la base de datos utilizada. El modelo define cómo se conectan los datos y cómo se procesan y almacenan dentro del sistema informático. Por ejemplo, un elemento de datos que representa una casa se puede asociar con otros elementos que, a su vez, representan el color de la casa, su tamaño, la dirección y el nombre del propietario. La forma en que se organiza la información varía de un modelo a otro.

El modelado de datos, las bases de datos y los lenguajes de programación son interdependientes y han evolucionado juntos. Las bases de datos han evolucionado básicamente en cuatro fases, y estas fases tienden a superponerse:

En su libro, "Datos y Realidad” (1978), Bill Kent comparó modelos de datos con mapas de carreteras, enfatizando las diferencias entre el mundo real y el mundo de los símbolos. Escribió: "Las carreteras no están pintadas de rojo, los ríos no tienen líneas de condado que corran por el medio y no se pueden ver las líneas de contorno en una montaña". Esta observación contrasta con muchos investigadores que intentaron crear modelos limpios y matemáticamente estériles. Kent prefirió enfatizar el desorden básico de la realidad y sugirió que los modeladores de datos deberían centrarse en crear orden a partir del caos, sin distorsionar la verdad básica. (Con la popularidad de NoSQL y los datos no relacionales, las sugerencias de Kent de 1978 demostraron ser una buena idea, pero por razones técnicas, nos tomó un tiempo llegar allí).

Modelado de datos en la década de 1960

El concepto de modelado de datos comenzó a cobrar importancia en la década de 1960, cuando los sistemas de información de gestión (MIS) se hicieron populares. (Antes de 1960, había muy pocos datos o almacenamiento de datos. Las computadoras de esta época eran esencialmente calculadoras gigantes). Durante la década de 1960 se propusieron varios modelos de datos teóricos, incluidos tres que se convirtieron en realidad. Los dos primeros son “el modelo de datos jerárquico y el modelo de datos de red.” El tercer modelo teórico, el modelo relacional, fue propuesto por Edgar F. Codd a fines de la década de 1960.

El primer sistema de base de datos comercial verdadero estuvo disponible en 1964, se llamó Almacén de datos integrado (IDS), y fue desarrollado por Charles Bachman, con el apoyo de General Electric en su investigación. IDS usó el modelo de red, descrito como una forma flexible de representar objetos y sus relaciones en forma de gráfico. IBM optó por centrarse en modelos jerárquicos, diseñados para sus Sistema de gestión de la información (SOY S). En este modelo, las relaciones de los registros adoptan una forma de árbol. Si bien la estructura es simple, también es inflexible debido a un formato de relación de “uno a muchos” limitado.

A medida que evolucionaron el modelado de datos y los DBMS, también lo hicieron los lenguajes de programación. comienzo fue desarrollado en 1967 y fue el primer lenguaje de programación orientado a objetos. (Otros lenguajes evolucionaron a partir de Simula, como Java, Eifel, C++ y Smalltalk). La evolución de los lenguajes de programación fue una fuerte influencia en la configuración de los modelos que utilizan estos lenguajes.

Modelado de datos en la década de 1970

En 1970, Edgar F CoddLas ideas de fueron publicadas. Sus ideas ofrecían una forma significativamente diferente de manejar los datos, sugiriendo que todos los datos dentro de una base de datos podrían mostrarse como tablas usando columnas y filas, que se llamarían "relaciones". Estas “relaciones” serían accesibles utilizando un lenguaje no procesal o declarativo. (Recuerde, los idiomas influyen en la forma del modelo y viceversa). En lugar de escribir un algoritmo para acceder a los datos, este enfoque solo requería que se ingresara un nombre de archivo para identificar la información deseada. Esta ingeniosa idea condujo a una productividad mucho mayor. Era más rápido y eficiente, y llevó a IBM a crear SQL. (Originalmente llamado SEQUEL o Lenguaje de consulta en inglés estructurado).

Además, durante esta década, GM Nijssen creó "El método de análisis de información de Nijssen" (NIAM). Debido a que la evolución de este método ha incluido a varios otros desarrolladores, el título se modificó para que diga "Método de análisis de información en lenguaje natural" con una "L" minúscula en el lenguaje, por lo que mantiene el mismo acrónimo. 

Modelado de datos en la década de 1980

NIAM se desarrolló aún más en la década de 1980, con la ayuda de Terry Halpin. Su nombre fue cambiado a Object Role Modeling (ORM). ORM provocó un cambio dramático en la forma en que se perciben los datos y cómo se procesan los datos. La mentalidad tradicional requería que los datos y los procedimientos se almacenaran por separado. (Cabe señalar que a varios técnicos no les gusta ORM porque rompe todas las reglas).

A fines de la década de 1980, el modelo jerárquico se estaba volviendo obsoleto y el modelo relacional de Codd se convirtió en el reemplazo popular. Optimizadores de consultas se había vuelto lo suficientemente económico y lo suficientemente sofisticado como para que el modelo relacional se incorporara a los sistemas de bases de datos de la mayoría de las industrias. (Los bancos e instituciones similares aún prefieren modelos de datos jerárquicos para procesar información monetaria y estadística).

1998 y No SQL

La versión original de NoSQL es una base de datos desarrollada por Carlo Strozzi en 1998. Creó una base de datos relacional de código abierto que "no exponía" las conexiones SQL, "pero seguía siendo relacional". Las versiones posteriores de NoSQL eliminaron por completo los aspectos del modelo relacional.

2008 al presente: El crecimiento de los modelos no relacionales

Uno de los servicios de firma de NoSQLLas ventajas de es su capacidad para almacenar datos utilizando un formato sin esquema o no relacional. Otra es su enorme capacidad de almacenamiento de datos, en referencia a su escalabilidad horizontal. Esto lo hace particularmente adecuado para el manejo de datos no estructurados y, a su vez, adecuado para el procesamiento de big data. (El término "big data" perdió su significado cuando el uso de big data se convirtió en la norma). Rick van der Lans, analista y consultor independiente, declaró en un entrevista DATAVERSIDAD:

“El proceso de modelado de datos siempre está ahí. Puede ver ese rol de una manera simple, pensando en él como un proceso que conduce a un diagrama. En el proceso de creación del diagrama, intenta comprender qué significan los datos y cómo se relacionan entre sí los elementos de datos. De este modo, comprensión es un aspecto clave del modelado de datos”.

Debido a que los datos no tienen estructura, se puede usar una variedad de modelos de datos, después del hecho, para traducir y mapear los datos, dándoles estructura. En general, se entiende que los diferentes modelos de datos y los diferentes lenguajes asociados con ellos proporcionan diferentes paradigmas o diferentes formas de ver los problemas y las soluciones. Con NoSQL, es común almacenar datos en una variedad de ubicaciones (escalabilidad horizontal), lo que proporciona una variedad de posibles traducciones de modelos de datos. Esta técnica de almacenamiento se llama persistencia políglota. La pregunta entonces es: "¿Cuál es el mejor modelo de datos para usar?" Según van der Lans:

“Es por eso que algunos llaman a los datos multiestructurado, lo que significa que puede ver los mismos datos desde diferentes ángulos. Es como si estuvieras usando diferentes filtros cuando miras el mismo objeto”.

Debido a su flexibilidad y gran capacidad de almacenamiento de datos, los almacenes de datos de estilo NoSQL se han vuelto populares. Sin embargo, las bases de datos NoSQL aún tienen un largo camino por recorrer, en términos de evolución. Muchas organizaciones no han incluido un modelo de datos en sus sistemas NoSQL, ya que el modelado de datos con tales almacenes de datos existe principalmente dentro del código real.

Estas mismas organizaciones pueden quieres construir y utilizar un modelo de datos y aumentar el personal con habilidades de modelado de datos. La discrepancia se basa en la falta de modeladores con experiencia en bases de datos NoSQL, combinado con casi ninguna herramienta para el modelado de datos NoSQL. La necesidad de modeladores de datos NoSQL experimentados y las herramientas adecuadas sigue siendo una necesidad siempre presente.

Hackolada ha desarrollado un modelo de datos descargable y fácil de usar que proporciona poderosas herramientas visuales para NoSQL. Su software combina la simplicidad de los modelos de datos gráficos con las bases de datos de documentos NoSQL. Esta combinación reduce el tiempo de desarrollo, aumenta la calidad de la aplicación y reduce los riesgos de ejecución. Actualmente, el software es compatible con los esquemas de Couchbase, DynamoDB y MongoDB, y la compañía planea introducir software para varias otras bases de datos NoSQL.

El deseo de modelado de datos en nuevos modelos de bases de datos seguirá haciendo avanzar a la industria a medida que más organizaciones busquen capitalizar la diversidad de diseños no relacionales sin dejar de utilizar sus prácticas de modelado de datos consagradas y bien conocidas.

Imagen utilizada bajo licencia de Shutterstock.com

punto_img

Información más reciente

punto_img