Conceptos de ingeniería de datos: Parte 1, Modelado de datos

Mudra Patel MEDIUM, 12 de febrero de 2024

Fuente: https://medium.com/@dom.n/the-data-engineering-lifecycle-5c67bf6fb540

¿Qué es la ingeniería de datos?

La ingeniería de datos es el proceso de diseñar y definir canales que recopilan datos sin procesar de diferentes fuentes y los hacen compatibles para el análisis y la obtención de valor comercial.

Para ser un ingeniero de datos exitoso, se necesitan ciertos conceptos de datos y me gustaría explicar estos conceptos en detalle en esta serie de 10 partes. El primer concepto que discutiremos es el modelado de datos.

¿Qué es el modelado de datos?

El modelado de datos es el proceso de conceptualizar y visualizar cómo una organización capturará, almacenará y utilizará los datos. El objetivo final del modelado de datos es establecer estándares de datos claros para toda su organización.

Hay 3 tipos principales de modelos de datos:

a. Modelo de datos conceptuales: estos modelos están diseñados en un esfuerzo por comunicarse con las partes interesadas, mostrando las relaciones entre diferentes entidades y definiendo sus atributos esenciales de acuerdo con los requisitos del negocio. Es una versión abstracta representada por diagramas ER o UML para confirmar el objetivo y el alcance del proyecto de datos.

b. Modelo de datos lógicos: estos modelos son versiones refinadas de modelos de datos conceptuales e incorporan detalles de cardinalidad, tipos de datos, restricciones y validación según lo propuesto por las reglas comerciales. También se puede definir mediante diagramas ER o UML.

C. Modelo de datos físicos:
estos modelos son la versión final del modelo de datos lógico que incluye todas las características técnicas y limitaciones de la opción de almacenamiento que usted elija y está optimizado específicamente para el rendimiento, la escalabilidad, la seguridad y la disponibilidad de sus datos.

Fuente: https://www.gooddata.com/blog/what-a-data-model/

Técnicas de modelado de datos.

Existen varias técnicas de modelado de datos que podríamos utilizar para almacenar los datos en una base de datos:

Modelado de datos dimensionales:
este tipo de modelado de datos se utiliza para el análisis de datos en almacenes de datos y para organizar sus datos en hechos (medidas numéricas de eventos comerciales: ventas, ganancias) y dimensiones (atributos descriptivos que brindan contexto sobre el orden de los hechos, el cliente). .

Fuente: https://www.phdata.io/blog/building-modern-data-platform-with-data-vault/

Modelado de datos de bóveda de datos:
una bóveda de datos es un tipo de modelo de datos que permite la integración rápida de nuevas fuentes de datos en modelos existentes. Es una arquitectura de solo inserción y permite el seguimiento de registros históricos. Consta de 3 componentes: un centro (una entidad comercial principal y claves únicas que la definen), un enlace (una relación entre las claves comerciales de dos o más centros) y un satélite (alberga todos los datos contextuales sobre una entidad).

Fuente: https://www.phdata.io/blog/building-modern-data-platform-with-data-vault/

Modelado de datos gráficos:
el modelo de datos gráficos es un modelo creado para bases de datos de gráficos que representan datos en forma de redes, como interacciones en redes sociales. Consta de nodos (entidades), propiedades (atributos) y relaciones como aristas. Podemos aprovechar los algoritmos de gráficos y las consultas de gráficos para realizar análisis en este tipo de modelo.

Fuente: https://neo4j.com/developer/guide-data-modeling/

Importantes desafíos del modelado de datos

Normalización/Desnormalización
La normalización es el proceso de transformar una base de datos para reducir la redundancia y aumentar la integridad y coherencia de los datos. Debe aplicar particiones a una base de datos para simplificar cada tabla con una clave única y dependencias claramente definidas para evitar errores de inserción, actualización o eliminación. Esto ayudará a ahorrar almacenamiento al reducir la redundancia y permitirá flexibilidad, escalabilidad y precisión de los datos para realizar cambios sin afectar otras tablas.

Fuente: https://phoenixnap.com/kb/database-normalization

Pero esto puede provocar un rendimiento deficiente en la recuperación de consultas a través de uniones complejas, especialmente con bases de datos grandes o distribuidas. Por lo tanto, podríamos utilizar la desnormalización para proporcionar recuperaciones más rápidas. Aunque esto aumentaría el riesgo de inconsistencias, debemos lograr un equilibrio entre ambos.

Dimensión que cambia lentamente
Una dimensión que cambia lentamente es una dimensión que almacena y administra tanto la versión actual como la anterior durante un período histórico en un almacén de datos. Existen diferentes tipos de SCD:

Fuente: https://radacad.com/temporal-tables-a-new-method-for-slowly-changing-dimension

A veces es necesario almacenar datos históricos para proporcionar un análisis de datos completo y es entonces cuando es necesario utilizar SCD.

Captura de datos modificados
La captura de datos modificados se refiere al proceso de rastrear los cambios en una base de datos y luego capturarlos en los sistemas de destino. Mantiene todos los sistemas sincronizados y proporciona una replicación de datos confiable con migraciones de datos sin tiempo de inactividad. Estos son los diferentes tipos de CDC:

Fuente: https://www.linkedin.com/pulse/change-data-capture-nouhaila-el-ouadi-mqumf/

En ETL, puede usar CDC para obtener los cambios del registro, la hora o el activador y cargar y actualizar solo los datos modificados. Y dado que admite el movimiento de datos en tiempo real, también admite análisis y ciencia de datos en tiempo real.

Preparación de la entrevista:

El entrevistador generalmente le pide al ingeniero de datos que diseñe un modelo de datos para un caso de uso específico como universidad, tienda minorista, etc. El candidato debe dividir el problema en varias tablas para que sea fácilmente accesible a través de consultas SQL y responder cualquier pregunta relacionada con el negocio. que el entrevistador pueda preguntar. En ocasiones, será necesario modificar el modelo de datos para facilitar las siguientes preguntas que hace el entrevistador.

La siguiente parte de esta serie se centrará en el almacenamiento de datos. Espero que te haya gustado esta breve introducción al modelado de datos y ¡buena suerte en tus aventuras en ingeniería de datos!

Comparte en tus perfiles

Facebook
Twitter
LinkedIn

Artículos Relacionados:

La investigación e innovación en el ámbito de los drones dan forma a la movilidad aérea del futuro de Europa

ESMARTCITY,  24/04/2024 El informe titulado ‘Investigación e innovación en drones en Europa’ del Centro Común de Investigación (JRC) de la Comisión Europea analiza las tendencias, desafíos y logros recientes de los proyectos europeos de I+i en aeronaves no tripuladas y movilidad aérea urbana. El estudio identifica iniciativas relevantes utilizando la base de datos del Sistema

Seguir leyendo »

El PE aprueba la Ley de Industria Cero Neto para la producción de tecnologías para la descarbonización

ESEFICIENCIA, 26/04/2024 El Parlamento Europeo ha aprobado la Ley de Industria Cero Neto para impulsar la producción de la UE en tecnologías necesarias para la descarbonización. El objetivo es adaptar el mercado interior de la UE a la descarbonización industrial, el proyecto de ley apoya la fabricación de tecnologías clave necesarias para los objetivos climáticos y energéticos

Seguir leyendo »