Ciencia de datos. Análisis exploratorio de datos: desentrañando la historia dentro de su conjunto de datos

Deepak Chopra Medium. Towards Data Science

Como entusiasta de los datos, explorar un nuevo conjunto de datos es una tarea emocionante. Nos permite obtener una comprensión más profunda de los datos y sienta las bases para un análisis exitoso. Tener una buena idea de un nuevo conjunto de datos no siempre es fácil y lleva tiempo. Sin embargo, un buen y completo análisis exploratorio de datos (EDA) puede ayudar mucho a comprender su conjunto de datos y tener una idea de cómo están conectadas las cosas y qué se debe hacer para procesar correctamente su conjunto de datos.

De hecho, probablemente dedicará el 80 % de su tiempo a la preparación y exploración de datos y solo el 20 % al modelado de datos real . Para otros tipos de análisis, la exploración puede tomar una proporción aún mayor de su tiempo.

**El qué.

El análisis exploratorio de datos, en pocas palabras, se refiere al arte de explorar datos. Es el proceso de investigar datos desde diferentes ángulos para mejorar su comprensión, explorar patrones, establecer relaciones entre variables y, si es necesario, mejorar los datos en sí.

Es como tener una cita ‘a ciegas’ con tu conjunto de datos, sentarte frente a esta enigmática colección de números y textos, anhelando entenderla antes de embarcarte en una relación seria. Al igual que una cita a ciegas, EDA le permite descubrir las facetas ocultas de su conjunto de datos. Observa patrones, detecta valores atípicos y explora los matices antes de asumir compromisos significativos. Se trata de familiarizarse y generar confianza con los números, asegurándose de estar en terreno firme antes de sacar conclusiones.

Todos hemos estado allí; a sabiendas o sin saberlo, profundizar en herramientas estadísticas o revisar informes: ¡todos hemos explorado algún tipo de datos en algún momento!

**El porque.

Se supone que nosotros, como analistas y científicos de datos, comprendemos mejor los datos. Debemos convertirnos en expertos a la hora de comprender e interpretar los datos. Ya se trate de modelos de aprendizaje automático, marcos de experimentación o análisis simples, el resultado es tan bueno como los datos en los que se basa.

Recuerda, Basura Entra, Basura Sale!!

EDA permite a los analistas de datos y científicos explorar, comprender y obtener información significativa de los datos. Justo cuando crees que lo tienes todo resuelto, el conjunto de datos te lanza una bola curva. Encuentra valores perdidos, inconsistencias y datos desordenados. Es como descubrir que tu cita tiene un caimán mascota secreto o una colección de figuritas de unicornio. El análisis exploratorio de datos le brinda las herramientas para limpiar el desorden y darle sentido a todo.

— Es como darle un cambio de imagen a su conjunto de datos, transformándolo de un desorden desaliñado a un compañero deslumbrante.

Al final, el análisis exploratorio de datos se trata de conocer sus datos en un nivel más profundo, divertirse en el camino y construir una base sólida para un análisis posterior. Así que tome su sombrero de detective y embárquese en esta emocionante aventura con su conjunto de datos. Quién sabe, ¡puede que encuentres un tesoro escondido o incluso el amor verdadero!

**El como.

El análisis exploratorio de datos, como su nombre indica, es un análisis para explorar los datos. Consta de una serie de componentes; ni son todos imprescindibles todo el tiempo, ni todos tienen la misma importancia. A continuación, estoy enumerando algunos componentes basados ​​en mi experiencia.
Tenga en cuenta que de ninguna manera es una lista exhaustiva, sino un marco de orientación.

1. Comprender la disposición del terreno.

No sabes lo que no sabes, ¡pero puedes explorar!
Lo primero y más importante que debe hacer es tener una idea de los datos: observe las entradas de datos, observe los valores de las columnas. Cuántas filas, columnas tienes.

  • un conjunto de datos de un minorista podría indicarle: el Sr. X visitó la tienda n.º 2000 el 1 de agosto de 2023 y compró una lata de Coca-Cola y un paquete de Walker Crisps
  • un conjunto de datos de las redes sociales podría decirle: la Sra. Y inició sesión en el sitio web de la red social a las 09:00 am del 3 de junio y navegó por las secciones A, B y C, buscó a su amigo el Sr. A y luego cerró la sesión después de 20 minutos.

Es beneficioso obtener el contexto comercial de los datos que tiene, conocer la fuente y el mecanismo de recopilación de datos; por ejemplo, datos de encuestas frente a datos recopilados digitalmente, etc.).

2. Haga doble clic en las variables

Las variables son la lengua parlante de un conjunto de datos, te hablan continuamente. Solo necesita hacer las preguntas correctas y escuchar con atención.

→ Preguntas a realizar:
– ¿Qué significan/representan las variables?
– ¿Las variables son continuas o categóricas? .. ¿Algún orden inherente?
– ¿Cuáles son los posibles valores que pueden tomar?

→ ACCIÓN::

  • Para variables continuas, verifique las distribuciones usando histogramas, diagramas de caja y estudie cuidadosamente la media, la mediana, las desviaciones estándar, etc.
  • Para variables categóricas / ordinales, averigüe sus valores únicos y haga una tabla de frecuencia para verificar las que ocurren con más / menos.

Es posible que comprenda o no todas las variables, etiquetas y valores, pero intente obtener la mayor cantidad de información posible.

3. Busque patrones/relaciones en sus datos

A través de EDA, puede descubrir patrones, tendencias y relaciones dentro de los datos.

→ Preguntas para hacer:
– ¿Tiene alguna suposición/hipótesis previa de relaciones entre variables?
– ¿Alguna razón comercial para que algunas variables estén relacionadas entre sí?
– ¿Las variables siguen alguna distribución en particular?

Las técnicas de visualización de datos, los resúmenes y el análisis de correlación ayudan a revelar patrones ocultos que pueden no ser evidentes a primera vista. Comprender estos patrones puede proporcionar información valiosa para la toma de decisiones o la generación de hipótesis.

→ ACCIÓN::
Piense en el análisis bivariante visual.

  • En el caso de variables continuas, use diagramas de dispersión, cree matrices de correlación/mapas de calor, etc.
  • Una mezcla de variables continuas y ordinales/categóricas: considere trazar gráficos de barras o circulares y cree tablas de contingencia para visualizar la co-ocurrencia.

EDA le permite validar supuestos estadísticos, como normalidad, linealidad o independencia, para análisis o modelado de datos.

4. Detección de anomalías.

¡Esta es tu oportunidad de convertirte en Sherlock Holmes con tus datos y buscar cualquier cosa fuera de lo común! Pregúntese::

– ¿Hay entradas duplicadas en el conjunto de datos?

Los duplicados son entradas que representan el mismo punto de muestra varias veces. Los duplicados no son útiles en la mayoría de los casos ya que no brindan ninguna información adicional. Pueden ser el resultado de un error y pueden alterar la media, la mediana y otras estadísticas.
→ Consulte con sus partes interesadas y elimine dichos errores de sus datos.

– ¿Errores de etiquetado para variables categóricas?

Busque valores únicos para variables categóricas y cree un gráfico de frecuencia. ¿Busca faltas de ortografía y etiquetas que puedan representar cosas similares?

– ¿Algunas variables tienen valores perdidos?

Esto puede ocurrir tanto con variables numéricas como categóricas. Comprobar si

  • ¿Hay filas que tienen valores faltantes para muchas variables (columnas)? Esto significa que hay puntos de datos que tienen espacios en blanco en la mayoría de las columnas → no son muy útiles, es posible que debamos eliminarlos.
  • ¿Hay variables (o columnas) a las que les faltan valores en varias filas? Esto significa que hay variables que no tienen valores/etiquetas en la mayoría de los puntos de datos → no pueden agregar mucho a nuestra comprensión, es posible que debamos eliminarlas.

→ ACCIÓN::

– Cuente la proporción de valores NULL o faltantes para todas las variables. Las variables con más del 15%-20% deberían hacerte sospechar.

– Filtre las filas con valores faltantes para una columna y verifique cómo se ven el resto de las columnas. ¿Es que la mayoría de las columnas tienen valores perdidos juntos?… ¿hay un patrón?

– ¿Hay valores atípicos en mi conjunto de datos?

La detección de valores atípicos consiste en identificar puntos de datos que no se ajustan a la norma. es posible que vea valores muy altos o extremadamente bajos para ciertas variables numéricas, o una frecuencia alta o baja para variables de clase categórica.

  • Lo que parece un valor atípico puede ser un error de datos.
    Si bien los valores atípicos son puntos de datos que son inusuales para una determinada distribución de funciones, las entradas no deseadas o los errores de registro son muestras que, en primer lugar, no deberían estar allí.
  • Lo que parece un valor atípico puede ser simplemente un valor atípico.
    En otros casos, es posible que solo tengamos puntos de datos con valores extremos y un razonamiento perfectamente fino detrás de ellos.

→ ACCIÓN::

Estudie los histogramas, los diagramas de dispersión y los gráficos de barras de frecuencia para comprender si hay algunos puntos de datos que están más alejados del resto. Reflexiona:- ¿Pueden ser ciertos y tomar estos valores extremos?- ¿Existe un razonamiento comercial o una justificación para estos extremos? – ¿Agregarían valor a su análisis en una etapa posterior?

5. Limpieza de datos.

La limpieza de datos se refiere al proceso de eliminar variables y valores no deseados de su conjunto de datos y deshacerse de cualquier irregularidad en él. Estas anomalías pueden sesgar desproporcionadamente los datos y, por lo tanto, afectar negativamente los resultados de nuestro análisis de este conjunto de datos.

Recuerda: basura entra, basura sale

– Curso corregir tus datos.

  • Elimine las entradas duplicadas si encuentra valores faltantes y atípicos, que no agregan valor a su conjunto de datos. Deshágase de filas/columnas innecesarias.
  • Corrija las faltas de ortografía o de etiquetado que observe en los datos.
  • Cualquier error de datos que detecte que no agregue valor a los datos también debe eliminarse.

– Limite los valores atípicos o déjelos ser.

  • En algunos escenarios de modelado de datos, es posible que debamos limitar los valores atípicos en cualquiera de los extremos. La limitación a menudo se realiza en el percentil 99/95 para el límite superior o en el percentil 1/5 para la limitación inferior.

– Tratar valores perdidos.

Por lo general, descartamos puntos de datos (filas) con muchos valores faltantes en las variables. De manera similar, descartamos variables (columnas) que tienen valores faltantes en muchos puntos de datos

Si faltan algunos valores, podríamos buscar tapar esos vacíos o simplemente dejarlos como están.

  • Para las variables continuas con valores perdidos, podemos reemplazarlos usando valores medios o medianos (quizás a través de un estrato particular)
  • Para valores faltantes categóricos, podríamos asignar la ‘clase’ más utilizada o tal vez crear una nueva clase ‘no definida’.

– Enriquecimiento de datos.

Según las necesidades del análisis futuro, puede agregar más funciones (variables) a su conjunto de datos; tales como (no restringido a)

  • Crear variables binarias que indiquen la presencia o ausencia de algo.
  • Creación de etiquetas/clases adicionales mediante el uso de cláusulas IF-THEN-ELSE.
  • Escale o codifique sus variables según sus futuras necesidades de análisis.
  • Combine dos o más variables: use arreglos de funciones matemáticas como suma, diferencia, media, logaritmo y muchas otras transformaciones.

Resumen

EDA permite a los científicos de datos descubrir información valiosa, abordar problemas de calidad de datos y sentar una base sólida para un análisis y modelado adicionales. Garantiza que los resultados del análisis de datos sean confiables, precisos e impactantes.

Componentes clave de EDA:

  1. Comprenda la fuente y el «significado» de sus datos.
  2. Conozca todas las variables, sus distribuciones, etiquetas/clases de entrada y salida.
  3. Busque patrones/relaciones entre variables para validar cualquier hipótesis o suposición previa.
  4. Detecte cualquier anomalía: errores de datos, valores atípicos, valores faltantes.
  5. Limpieza de datos: elimine o corrija el curso de cualquier error/anomalía de los datos, limite los valores atípicos, rellene los valores faltantes (si es necesario), escale/transforme las variables existentes y cree variables derivadas adicionales que enriquezcan su conjunto de datos para su posterior análisis.

Conéctate, Aprende y Crece..

Si te gusta este artículo y estás interesado en otros similares, sígueme en Medium , LinkedIn , únete a mi lista de correo electrónico (… si aún no lo eres…) únete a la familia Medium para tener acceso a miles de artículos útiles. (Obtendré ~ 50% de sus tarifas de membresía si usa el enlace anterior)

.. ¡Sigue aprendiendo y sigue creciendo!

Comparte en tus perfiles

Facebook
Twitter
LinkedIn

Artículos Relacionados:

Sobre la sequía en España: un acercamiento a las potenciales soluciones

Plataforma Tierra. 11 agosto 2025. UNA COMUNIDAD DIGITAL DE CONOCIMIENTO España, con su clima mediterráneo y su intensa actividad agrícola, enfrenta constantes desafíos relacionados con la disponibilidad de recursos hídricos. La sostenibilidad futura de los embalses nacionales requiere del impulso de fuentes alternativas de agua para garantizar la resiliencia hídrica del país. Según el WWF (World

Seguir leyendo »

¿Qué hace a un ingeniero senior?

Ben Evans. 4 de septiembre de 2025. MEDIUM Ilustración de un ingeniero de software llenándose la cabeza de nuevas ideas. — Crédito: Google Gemini AI He desempeñado puestos desde ingeniero, ingeniero sénior, líder e ingeniero de planta hasta gerente, arquitecto, director y director técnico ( aunque no en ese orden ). Mi trabajo como gerente de ingeniería

Seguir leyendo »

La doble misión de las operaciones a medida que aumentan los costes de las emisiones.

Christian Johnson (moderador), Matthias Ballweg, Anna-Christina Fredershausen, Johan Bengtsson. 28 de agosto de 2025. Mc Kinsey A medida que aumentan las exigencias regulatorias y las tensiones geopolíticas, las empresas están rediseñando sus productos y cadenas de suministro para lograr la sostenibilidad. ¿Pueden estas medidas fortalecer su desempeño ambiental y financiero? Con tanta atención reciente a las

Seguir leyendo »