S05L02 – manejo de datos faltantes

html
Manejo de Datos Faltantes en Python: Una Guía Integral con SimpleImputer de Scikit-Learn

Tabla de Contenidos

  Comprendiendo los Datos Faltantes
  Estrategias para Manejar Datos Faltantes
    
      1. Eliminación de Filas o Columnas
      2. Imputación de Valores Faltantes
    
  
  Uso de SimpleImputer de Scikit-Learn
    
      Implementación Paso a Paso
    
  
  Mejores Prácticas y Consideraciones
  Conclusión




Comprendiendo los Datos Faltantes

Los datos faltantes, a menudo representados como NaN (Not a Number) en conjuntos de datos, indican la ausencia de un valor para una característica particular en un registro de datos. Abordar adecuadamente estas lagunas es esencial para asegurar la integridad y confiabilidad de tu análisis de datos y modelos de aprendizaje automático.

Tipos de Datos Faltantes


  Faltante Completamente al Azar (MCAR): La probabilidad de que los datos falten no está relacionada con ninguna otra variable en el conjunto de datos.
  Faltante al Azar (MAR): La ausencia está relacionada con datos observados pero no con los datos faltantes en sí.
  Faltante No al Azar (MNAR): La ausencia está relacionada con los datos faltantes mismos.


Comprender el tipo de datos faltantes puede guiar la estrategia apropiada para manejarlos.

Estrategias para Manejar Datos Faltantes

Existen varias estrategias para abordar los datos faltantes, cada una con sus ventajas y desventajas. La elección de la estrategia depende de la naturaleza y el alcance de los datos faltantes.

1. Eliminación de Filas o Columnas

Un enfoque sencillo es eliminar entradas de datos (filas) o características completas (columnas) que contienen valores faltantes.


  Eliminación de Filas: Adecuado cuando la proporción de datos faltantes es pequeña y está dispersa en diferentes registros.
    
      Pros:
        
          Simplifica el conjunto de datos.
          Evita introducir sesgo mediante imputación.
        
      
      Contras:
        
          Potencialmente descarta información valiosa.
          No es ideal si una porción significativa de los datos falta.
        
      
    
  
  Eliminación de Columnas: Aplicable cuando una característica completa tiene un alto porcentaje de valores faltantes.
    
      Pros:
        
          Reduce la complejidad de los datos.
        
      
      Contras:
        
          Pérdida de características potencialmente importantes.
        
      
    
  


Ejemplo de Escenario: Si una característica como "Edad" tiene más del 20% de valores faltantes, y esta característica no es crítica para tu análisis, podría ser prudente eliminarla.

2. Imputación de Valores Faltantes

En lugar de desechar los datos faltantes, la imputación implica rellenar los valores faltantes con estimaciones plausibles basadas en otros datos disponibles.

Los métodos comunes de imputación incluyen:


  Imputación por Media: Reemplazar los valores faltantes con la media de los valores disponibles.
  Imputación por Mediana: Usar la mediana, que es más robusta frente a valores atípicos.
  Imputación por Moda: Rellenar datos categóricos faltantes con el valor más frecuente.
  Imputación por Valor Constante: Asignar un valor específico, como cero o un valor centinela.


La imputación preserva el tamaño del conjunto de datos y puede llevar a un mejor rendimiento del modelo, especialmente cuando los datos faltantes son mínimos.



Uso de SimpleImputer de Scikit-Learn

Scikit-Learn ofrece la clase SimpleImputer, una herramienta poderosa para manejar datos faltantes de manera eficiente. Proporciona una interfaz sencilla para diversas estrategias de imputación.

Implementación Paso a Paso

Recorramos un ejemplo de manejo de datos faltantes usando SimpleImputer.

**1. Configurando el Entorno**

Asegúrate de tener las bibliotecas necesarias instaladas. Si no, puedes instalarlas usando pip:





		
		
			
			
Java
			
			pip install numpy pandas scikit-learn openpyxl
			
				
					
				
					1
				
						pip install numpy pandas scikit-learn openpyxl
					
				
			
		



Nota: La biblioteca openpyxl es necesaria para leer archivos Excel con Pandas.

**2. Importando Bibliotecas**





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
			
				
					
				
					1
2
3
				
						import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
					
				
			
		



**3. Cargando los Datos**

Para este ejemplo, generaremos un conjunto de datos de muestra. En la práctica, reemplazarías esto cargando tu conjunto de datos usando pd.read_excel o pd.read_csv.





		
		
			
			
Java
			
			# Sample DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Height': [165, np.nan, 180, 175, np.nan],
    'Weight': [68, 85, np.nan, 77, 65],
    'Age': [25, 30, 35, np.nan, 28],
    'Gender': ['Female', 'Male', 'Male', 'Male', 'Female']
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
				
						# Sample DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Height': [165, np.nan, 180, 175, np.nan],
    'Weight': [68, 85, np.nan, 77, 65],
    'Age': [25, 30, 35, np.nan, 28],
    'Gender': ['Female', 'Male', 'Male', 'Male', 'Female']
}
 
df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)
					
				
			
		



Salida:





		
		
			
			
Java
			
			Original DataFrame:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob     NaN    85.0  30.0    Male
2  Charlie   180.0     NaN  35.0    Male
3    David   175.0    77.0   NaN    Male
4      Eve     NaN    65.0  28.0  Female
			
				
					
				
					1
2
3
4
5
6
7
				
						Original DataFrame:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob     NaN    85.0  30.0    Male
2  Charlie   180.0     NaN  35.0    Male
3    David   175.0    77.0   NaN    Male
4      Eve     NaN    65.0  28.0  Female
					
				
			
		



**4. Identificando Valores Faltantes**

En el conjunto de datos, Height, Weight, y Age contienen valores faltantes representados como NaN.

**5. Eligiendo una Estrategia de Imputación**

Para características numéricas (Height, Weight, Age), usaremos la estrategia de media. Para características categóricas (Gender), la estrategia de más frecuente es apropiada.

**6. Implementando la Imputación para Características Numéricas**





		
		
			
			
Java
			
			# Separate features
X = df[['Height', 'Weight', 'Age']]

# Initialize SimpleImputer with mean strategy
imputer_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

# Fit and transform the data
imputed_data = imputer_mean.fit_transform(X)

# Convert back to DataFrame
imputed_df = pd.DataFrame(imputed_data, columns=['Height', 'Weight', 'Age'])

# Update the original DataFrame
df[['Height', 'Weight', 'Age']] = imputed_df

print("\nDataFrame after Mean Imputation:")
print(df)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						# Separate features
X = df[['Height', 'Weight', 'Age']]
 
# Initialize SimpleImputer with mean strategy
imputer_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
 
# Fit and transform the data
imputed_data = imputer_mean.fit_transform(X)
 
# Convert back to DataFrame
imputed_df = pd.DataFrame(imputed_data, columns=['Height', 'Weight', 'Age'])
 
# Update the original DataFrame
df[['Height', 'Weight', 'Age']] = imputed_df
 
print("\nDataFrame after Mean Imputation:")
print(df)
					
				
			
		



Salida:





		
		
			
			
Java
			
			DataFrame after Mean Imputation:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female
			
				
					
				
					1
2
3
4
5
6
7
				
						DataFrame after Mean Imputation:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female
					
				
			
		



Explicación: Aquí, los valores faltantes de Height y Age se reemplazan con la media de sus respectivas columnas. Por ejemplo, el Height faltante se rellena con \( (165 + 180 + 175) / 3 = 173.333 \) (redondeado a 170 para simplicidad).

**7. Implementando la Imputación para Características Categóricas**





		
		
			
			
Java
			
			# Initialize SimpleImputer with most frequent strategy
imputer_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

# Fit and transform the 'Gender' column
imputed_gender = imputer_mode.fit_transform(df[['Gender']])

# Update the DataFrame
df['Gender'] = imputed_gender

print("\nDataFrame after Gender Imputation:")
print(df)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						# Initialize SimpleImputer with most frequent strategy
imputer_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
 
# Fit and transform the 'Gender' column
imputed_gender = imputer_mode.fit_transform(df[['Gender']])
 
# Update the DataFrame
df['Gender'] = imputed_gender
 
print("\nDataFrame after Gender Imputation:")
print(df)
					
				
			
		



Salida:





		
		
			
			
Java
			
			DataFrame after Gender Imputation:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female
			
				
					
				
					1
2
3
4
5
6
7
				
						DataFrame after Gender Imputation:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female
					
				
			
		



Explicación: Aunque en este ejemplo no había valores faltantes en la columna Gender, aplicar la estrategia de MásFrecuente asegura que cualquier dato categórico faltante futuro se rellene con la moda de la columna.

**8. DataFrame Final**

Después de la imputación, el DataFrame está libre de valores faltantes, haciéndolo adecuado para el modelado.





		
		
			
			
Java
			
			print("\nFinal Cleaned DataFrame:")
print(df)
			
				
					
				
					1
2
				
						print("\nFinal Cleaned DataFrame:")
print(df)
					
				
			
		



Salida:





		
		
			
			
Java
			
			Final Cleaned DataFrame:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female
			
				
					
				
					1
2
3
4
5
6
7
				
						Final Cleaned DataFrame:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female
					
				
			
		



Mejores Prácticas y Consideraciones


  Comprende los Datos: Antes de decidir una estrategia de imputación, analiza la naturaleza y distribución de tus datos. Las visualizaciones y resúmenes estadísticos pueden ayudar en esta comprensión.
  Preserva la Integridad de los Datos: Evita introducir sesgos. Por ejemplo, la imputación por media puede distorsionar la distribución de los datos si hay valores atípicos presentes.
  Usa Técnicas de Imputación Avanzadas si es Necesario: Para escenarios más complejos, considera técnicas como la imputación por K-Nearest Neighbors (KNN) o la imputación basada en modelos.
  Evalúa el Rendimiento del Modelo: Después de la imputación, evalúa cómo afecta al rendimiento de tu modelo. A veces, ciertos métodos de imputación pueden llevar a una mejor precisión predictiva.
  Automatiza los Pipelines de Preprocesamiento: Incorpora los pasos de imputación en tus pipelines de preprocesamiento de datos para asegurar la consistencia, especialmente cuando trabajas con grandes conjuntos de datos o despliegas modelos.


Conclusión

Manejar los datos faltantes es una parte indispensable del preprocesamiento de datos en los flujos de trabajo de aprendizaje automático. Al abordar efectivamente las lagunas en tus datos, mejoras la calidad y confiabilidad de tus análisis y modelos. La biblioteca Scikit-Learn de Python, con su clase SimpleImputer, ofrece un enfoque robusto y fácil de usar para imputar valores faltantes utilizando diversas estrategias. Ya sea que elijas eliminar registros incompletos o rellenar valores faltantes con medidas estadísticas, comprender las implicaciones de cada método asegura que tus datos permanezcan significativos y accionables.

Adopta estas técnicas para mantener la integridad de tus conjuntos de datos y propulsar tus proyectos de ciencia de datos hacia el éxito.