Realiza en un EDA (Análisis Exploratorio de Datos): Limpieza y tratamiento de Inconsistencias
En el mundo del Business Intelligence (BI) y de la analítica avanzada, el Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) se ha convertido en una de las fases más importantes dentro de cualquier proyecto de ciencia de datos. No importa cuán sofisticado sea el modelo predictivo o el dashboard que quieras construir: si los datos no están limpios, el resultado será poco fiable.
¿Qué es un EDA?
El EDA es el conjunto de técnicas y procesos iniciales que permiten conocer, entender y preparar los datos antes de cualquier modelado o análisis profundo. Su objetivo principal es detectar patrones, identificar anomalías, comprobar supuestos y, sobre todo, garantizar la calidad de la información.
En términos simples: el EDA es como la “revisión médica” que se le hace a los datos antes de comenzar a entrenar un modelo de Machine Learning o antes de tomar decisiones estratégicas basadas en ellos.
¿Para qué se utiliza?
- Detección de valores nulos y duplicados que pueden distorsionar los resultados.
- Identificación de outliers (valores extremos) que pueden sesgar el análisis.
- Entendimiento de distribuciones y correlaciones entre variables.
- Verificación de consistencia: comprobar si los datos siguen la lógica del negocio.
En Business Intelligence, el EDA es fundamental para garantizar que los KPIs y dashboards reflejen la realidad y no “ruido” generado por inconsistencias en la fuente de datos.
Limpieza de datos en el EDA
Uno de los pasos críticos del EDA es la limpieza y transformación de los datos. Aquí se incluyen acciones como:
- Eliminar datos que no aportan valor: columnas irrelevantes para el objetivo de análisis (por ejemplo, identificadores redundantes).
- Sustituir inconsistencias: rellenar valores nulos con la moda o la media, unificar categorías mal escritas (“España”, “Espana”, “ES”), normalizar unidades de medida, etc.
- Crear nuevas variables más útiles: por ejemplo, convertir la fecha de contratación en “años de antigüedad en la empresa”.
import pandas as pd
df = pd.read_csv('AbandonoEmpleados.csv', sep = ';', index_col= 'id', na_values='#N/D')
df.info()
df.isna().sum().sort_values(ascending = False)
df.drop(columns = ['anos_en_puesto','conciliacion'], inplace = True)
df.isna().sum().sort_values(ascending = False)
df['sexo'] = df['sexo'].fillna('Desconocido')
# Imputación por moda para cada columna
df['educacion'] = df['educacion'].fillna(df['educacion'].mode()[0])
df['satisfaccion_trabajo'] = df['satisfaccion_trabajo'].fillna(df['satisfaccion_trabajo'].mode()[0])
df['implicacion'] = df['implicacion'].fillna(df['implicacion'].mode()[0])
df.isna().sum().sort_values(ascending = False)
df.to_csv('AbandonoEmpleados_EDA.csv', index=False, encoding="utf-8")
¿Cómo aplicar el EDA en Business Intelligence?
En un proyecto de BI, los datos suelen provenir de múltiples fuentes: ERP, CRM, hojas de cálculo, bases de datos externas… Antes de integrarlos en un Data Warehouse o construir un dashboard en herramientas como Power BI, Looker Studio o Tableau, es imprescindible realizar un EDA.
Aplicar un buen EDA permite:
- Evitar reportes con errores de cálculo.
- Ahorrar tiempo en la fase de modelado al tener datos homogéneos.
- Incrementar la confianza de la dirección en las decisiones basadas en datos.
El EDA es la base de cualquier análisis de datos sólido. Sin esta etapa, las decisiones tomadas pueden estar basadas en información incompleta o errónea. Al eliminar datos que no aportan valor y sustituir inconsistencias, se obtiene un dataset más robusto que servirá de fundamento para todo el proceso de Business Intelligence y Data Science.
Juande Marín
Profesor de Marketing digital, divulgador de inteligencia artificial y neuroeducación. Especializado en posicionamiento en buscadores y diseño web. Autor de varios libros relacionados con el comercio electrónico y el marketing digital (McGraw Hill, Paraninfo,…) Juande2marin