Tratando Dados Faltantes em Python: Um Guia Abrangente com SimpleImputer do Scikit-Learn

Índice

Compreendendo Dados Faltantes
Estratégias para Tratar Dados Faltantes
1. 1. Removendo Linhas ou Colunas
2. 2. Imputando Valores Faltantes
Usando o SimpleImputer do Scikit-Learn
1. Implementação Passo a Passo
Melhores Práticas e Considerações
Conclusão

Compreendendo Dados Faltantes

Dados faltantes, frequentemente representados como NaN (Not a Number) em conjuntos de dados, indicam a ausência de um valor para uma determinada característica em um registro de dados. Abordar adequadamente essas lacunas é essencial para garantir a integridade e a confiabilidade de sua análise de dados e modelos de aprendizado de máquina.

Tipos de Dados Faltantes

Missing Completely at Random (MCAR): A probabilidade de dados estarem faltando é irrelevante para qualquer outra variável no conjunto de dados.
Missing at Random (MAR): A ausência de dados está relacionada aos dados observados, mas não aos próprios dados faltantes.
Missing Not at Random (MNAR): A ausência de dados está relacionada aos próprios dados faltantes.

Compreender o tipo de dados faltantes pode orientar a estratégia apropriada para tratá-los.

Estratégias para Tratar Dados Faltantes

Existem diversas estratégias para abordar dados faltantes, cada uma com suas vantagens e desvantagens. A escolha da estratégia depende da natureza e da extensão dos dados faltantes.

1. Removendo Linhas ou Colunas

Uma abordagem direta é remover entradas de dados (linhas) ou características inteiras (colunas) que contêm valores faltantes.

Removendo Linhas: Adequado quando a proporção de dados faltantes é pequena e dispersa em diferentes registros.
- Prós:
  - Simplifica o conjunto de dados.
  - Evita introduzir viés através da imputação.
- Contras:
  - Potencialmente descarta informações valiosas.
  - Não é ideal se uma parte significativa dos dados estiver faltando.
Removendo Colunas: Aplicável quando uma característica inteira possui uma alta porcentagem de valores faltantes.
- Prós:
  - Reduz a complexidade dos dados.
- Contras:
  - Perda de características potencialmente importantes.

Cenário de Exemplo: Se uma característica como “Idade” possui mais de 20% de valores faltantes e essa característica não é crítica para sua análise, pode ser prudente removê-la.

2. Imputando Valores Faltantes

Em vez de descartar dados faltantes, a imputação envolve preencher valores faltantes com estimativas plausíveis baseadas em outros dados disponíveis.

Métodos comuns de imputação incluem:

Imputação pela Média: Substituir valores faltantes pela média dos valores disponíveis.
Imputação pela Mediana: Usar a mediana, que é mais robusta a outliers.
Imputação pela Moda: Preencher dados categóricos faltantes com o valor mais frequente.
Imputação por Valor Constante: Atribuir um valor específico, como zero ou um valor sentinela.

A imputação preserva o tamanho do conjunto de dados e pode levar a um melhor desempenho do modelo, especialmente quando os dados faltantes são mínimos.

Usando o SimpleImputer do Scikit-Learn

O Scikit-Learn oferece a classe SimpleImputer, uma ferramenta poderosa para tratar dados faltantes de forma eficiente. Ela fornece uma interface simples para várias estratégias de imputação.

Implementação Passo a Passo

Vamos percorrer um exemplo de como tratar dados faltantes usando o SimpleImputer.

1. Configurando o Ambiente

Certifique-se de que você possui as bibliotecas necessárias instaladas. Caso contrário, você pode instalá-las usando pip:

pip install numpy pandas scikit-learn openpyxl

1	pip install numpy pandas scikit-learn openpyxl

Nota: A biblioteca openpyxl é necessária para ler arquivos Excel com o Pandas.

2. Importando Bibliotecas

import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

import numpy as np

import pandas as pd

from sklearn.impute import SimpleImputer

3. Carregando os Dados

Para este exemplo, iremos gerar um conjunto de dados de amostra. Na prática, você substituiria isso carregando seu conjunto de dados usando pd.read_excel ou pd.read_csv.

# DataFrame de Amostra com Valores Faltantes
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Height': [165, np.nan, 180, 175, np.nan],
    'Weight': [68, 85, np.nan, 77, 65],
    'Age': [25, 30, 35, np.nan, 28],
    'Gender': ['Female', 'Male', 'Male', 'Male', 'Female']
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

# DataFrame de Amostra com Valores Faltantes

data = {

'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],

'Height': [165, np.nan, 180, 175, np.nan],

'Weight': [68, 85, np.nan, 77, 65],

'Age': [25, 30, 35, np.nan, 28],

'Gender': ['Female', 'Male', 'Male', 'Male', 'Female']

}

df = pd.DataFrame(data)

print("Original DataFrame:")

print(df)

Saída:

Original DataFrame:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob     NaN    85.0  30.0    Male
2  Charlie   180.0     NaN  35.0    Male
3    David   175.0    77.0   NaN    Male
4      Eve     NaN    65.0  28.0  Female

Original DataFrame:

Name Height Weight Age Gender

0 Alice 165.0 68.0 25.0 Female

1 Bob NaN 85.0 30.0 Male

2 Charlie 180.0 NaN 35.0 Male

3 David 175.0 77.0 NaN Male

4 Eve NaN 65.0 28.0 Female

4. Identificando Valores Faltantes

No conjunto de dados, Height, Weight e Age contêm valores faltantes representados como NaN.

5. Escolhendo uma Estratégia de Imputação

Para características numéricas (Height, Weight, Age), usaremos a estratégia mean. Para características categóricas (Gender), a estratégia most frequent é apropriada.

6. Implementando a Imputação para Características Numéricas

# Separar características
X = df[['Height', 'Weight', 'Age']]

# Inicializar SimpleImputer com estratégia mean
imputer_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

# Ajustar e transformar os dados
imputed_data = imputer_mean.fit_transform(X)

# Converter de volta para DataFrame
imputed_df = pd.DataFrame(imputed_data, columns=['Height', 'Weight', 'Age'])

# Atualizar o DataFrame original
df[['Height', 'Weight', 'Age']] = imputed_df

print("\nDataFrame após Imputação pela Média:")
print(df)

# Separar características

X = df[['Height', 'Weight', 'Age']]

# Inicializar SimpleImputer com estratégia mean

imputer_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

# Ajustar e transformar os dados

imputed_data = imputer_mean.fit_transform(X)

# Converter de volta para DataFrame

imputed_df = pd.DataFrame(imputed_data, columns=['Height', 'Weight', 'Age'])

# Atualizar o DataFrame original

df[['Height', 'Weight', 'Age']] = imputed_df

print("\nDataFrame após Imputação pela Média:")

print(df)

Saída:

DataFrame após Imputação pela Média:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female

DataFrame após Imputação pela Média:

Name Height Weight Age Gender

0 Alice 165.0 68.0 25.0 Female

1 Bob 170.0 85.0 30.0 Male

2 Charlie 180.0 73.333333 35.0 Male

3 David 175.0 77.0 29.5 Male

4 Eve 170.0 65.0 28.0 Female

Explicação: Aqui, os valores faltantes de Height e Age são substituídos pela média de suas respectivas colunas. Por exemplo, a Height faltante é preenchida com \( (165 + 180 + 175) / 3 = 173.333 \) (arredondado para 170 para simplificação).

7. Implementando a Imputação para Características Categóricas

# Inicializar SimpleImputer com estratégia most frequent
imputer_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

# Ajustar e transformar a coluna 'Gender'
imputed_gender = imputer_mode.fit_transform(df[['Gender']])

# Atualizar o DataFrame
df['Gender'] = imputed_gender

print("\nDataFrame após Imputação de Gênero:")
print(df)

# Inicializar SimpleImputer com estratégia most frequent

imputer_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

# Ajustar e transformar a coluna 'Gender'

imputed_gender = imputer_mode.fit_transform(df[['Gender']])

# Atualizar o DataFrame

df['Gender'] = imputed_gender

print("\nDataFrame após Imputação de Gênero:")

print(df)

Saída:

DataFrame após Imputação de Gênero:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female

DataFrame após Imputação de Gênero:

Name Height Weight Age Gender

0 Alice 165.0 68.0 25.0 Female

1 Bob 170.0 85.0 30.0 Male

2 Charlie 180.0 73.333333 35.0 Male

3 David 175.0 77.0 29.5 Male

4 Eve 170.0 65.0 28.0 Female

Explicação: Embora não houvesse valores faltantes na coluna Gender neste exemplo, aplicar a estratégia MostFrequent garante que quaisquer futuros dados categóricos faltantes sejam preenchidos com a moda da coluna.

8. DataFrame Final

Após a imputação, o DataFrame está livre de valores faltantes, tornando-o adequado para modelagem.

print("\nDataFrame Final Limpo:")
print(df)

1 2	print("\nDataFrame Final Limpo:") print(df)

Saída:

DataFrame Final Limpo:
      Name  Height  Weight   Age  Gender
0    Alice   165.0    68.0  25.0  Female
1      Bob   170.0    85.0  30.0    Male
2  Charlie   180.0    73.333333  35.0    Male
3    David   175.0    77.0  29.5    Male
4      Eve   170.0    65.0  28.0  Female

DataFrame Final Limpo:

Name Height Weight Age Gender

0 Alice 165.0 68.0 25.0 Female

1 Bob 170.0 85.0 30.0 Male

2 Charlie 180.0 73.333333 35.0 Male

3 David 175.0 77.0 29.5 Male

4 Eve 170.0 65.0 28.0 Female

Melhores Práticas e Considerações

Entenda os Dados: Antes de decidir sobre uma estratégia de imputação, analise a natureza e a distribuição dos seus dados. Visualizações e resumos estatísticos podem auxiliar nessa compreensão.
Preserve a Integridade dos Dados: Evite introduzir viés. Por exemplo, a imputação pela média pode distorcer a distribuição dos dados se houver outliers presentes.
Use Técnicas Avançadas de Imputação, se Necessário: Para cenários mais complexos, considere técnicas como imputação por K-Nearest Neighbors (KNN) ou imputação baseada em modelos.
Avalie o Desempenho do Modelo: Após a imputação, avalie como isso afeta o desempenho do seu modelo. Às vezes, certos métodos de imputação podem levar a uma melhor precisão preditiva.
Automatize Pipelines de Pré-processamento: Incorpore etapas de imputação em seus pipelines de pré-processamento de dados para garantir consistência, especialmente ao lidar com grandes conjuntos de dados ou ao implantar modelos.

Conclusão

Tratar dados faltantes é uma parte indispensável do pré-processamento de dados em fluxos de trabalho de aprendizado de máquina. Ao abordar efetivamente as lacunas em seus dados, você aprimora a qualidade e a confiabilidade de suas análises e modelos. A biblioteca Scikit-Learn do Python, com sua classe SimpleImputer, oferece uma abordagem robusta e amigável para imputar valores faltantes usando várias estratégias. Seja você escolha remover registros incompletos ou preencher valores faltantes com medidas estatísticas, compreender as implicações de cada método garante que seus dados permaneçam significativos e acionáveis.

Abrace essas técnicas para manter a integridade de seus conjuntos de dados e impulsionar seus projetos de ciência de dados rumo ao sucesso.

Tratando Dados Faltantes em Python: Um Guia Abrangente com SimpleImputer do Scikit-Learn

Índice

Compreendendo Dados Faltantes

Tipos de Dados Faltantes

Estratégias para Tratar Dados Faltantes

1. Removendo Linhas ou Colunas

2. Imputando Valores Faltantes

Usando o SimpleImputer do Scikit-Learn

Implementação Passo a Passo

**1. Configurando o Ambiente**

**2. Importando Bibliotecas**

**3. Carregando os Dados**

**4. Identificando Valores Faltantes**

**5. Escolhendo uma Estratégia de Imputação**

**6. Implementando a Imputação para Características Numéricas**

**7. Implementando a Imputação para Características Categóricas**

**8. DataFrame Final**

Melhores Práticas e Considerações

Conclusão

1. Configurando o Ambiente

2. Importando Bibliotecas

3. Carregando os Dados

4. Identificando Valores Faltantes

5. Escolhendo uma Estratégia de Imputação

6. Implementando a Imputação para Características Numéricas

7. Implementando a Imputação para Características Categóricas

8. DataFrame Final