Preparando Dados para Aprendizado de Máquina: Tratamento de Valores Faltantes, Codificação e Balanceamento

Índice

Recapitulação: Fundamentos da Codificação One-Hot
Tratamento de Valores Faltantes
Tratando a Característica de Data
Codificação One-Hot Revisada
Tratamento de Dados Desbalanceados
Dividindo os Dados
Escalonamento de Características
Conclusão

Recapitulação: Fundamentos da Codificação One-Hot

Em nossa sessão anterior, introduzimos a codificação one-hot — um método para converter variáveis categóricas em um formato adequado para algoritmos de aprendizado de máquina. Adicionamos as declarações necessárias, mas pausamos para explorar mais variáveis e conteúdo. Hoje, vamos construir sobre essa base.

Tratamento de Valores Faltantes

Identificando Dados Faltantes

Antes de codificar, é crucial garantir que seu conjunto de dados não contenha valores faltantes, o que pode levar a erros durante o treinamento do modelo. Usando pandas, podemos identificar valores faltantes da seguinte forma:

import pandas as pd

missing_values = pd.isnull(x).sum()
print(missing_values)

import pandas as pd

missing_values = pd.isnull(x).sum()

print(missing_values)

Uma soma igual a zero indica que não há valores faltantes. No entanto, se certas colunas apresentarem valores diferentes de zero, essas colunas contêm dados faltantes que precisam ser tratados.

Gerenciando Dados Faltantes Numéricos e Categóricos

Conseguimos lidar com valores faltantes em colunas numéricas usando estratégias como imputação da média ou mediana. No entanto, colunas categóricas (strings) requerem uma abordagem diferente. Para dados categóricos, o valor mais frequente é frequentemente usado para imputação. Veja como implementá-lo:

from sklearn.impute import SimpleImputer

# Para dados numéricos
num_imputer = SimpleImputer(strategy='mean')
x_numeric = num_imputer.fit_transform(x_numeric)

# Para dados categóricos
cat_imputer = SimpleImputer(strategy='most_frequent')
x_categorical = cat_imputer.fit_transform(x_categorical)

from sklearn.impute import SimpleImputer

# Para dados numéricos

num_imputer = SimpleImputer(strategy='mean')

x_numeric = num_imputer.fit_transform(x_numeric)

# Para dados categóricos

cat_imputer = SimpleImputer(strategy='most_frequent')

x_categorical = cat_imputer.fit_transform(x_categorical)

Tratando a Característica de Data

Datas podem ser complicadas, pois muitas vezes contêm valores únicos, tornando-as menos úteis para modelagem preditiva. Incluir a data inteira pode introduzir alta dimensionalidade e desacelerar seu modelo sem adicionar poder preditivo. Aqui estão algumas estratégias:

Extração de Características: Extrair componentes significativos como dia e mês, descartando o ano.
Codificação de Rótulos: Atribuir rótulos numéricos às datas, mas tenha cuidado, pois isso pode introduzir relações ordinais não intencionais.
Codificação One-Hot: Não recomendada para datas devido à explosão no número de características.

Dadas essas dificuldades, a solução mais direta é remover a característica de data completamente se ela não for essencial para o seu modelo:

x = x.drop(['date'], axis=1)

1	x = x.drop(['date'], axis=1)

No nosso caso, com base na descrição do conjunto de dados do “Rain Prediction in Australia” do Kaggle, também excluímos a variável risk_mm para obter melhor desempenho.

Codificação One-Hot Revisada

Após lidar com valores faltantes e remover características irrelevantes, prosseguimos com a codificação one-hot:

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
x_encoded = encoder.fit_transform(x)
print(x_encoded.shape)  # Example output: (number_of_samples, 115)

from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()

x_encoded = encoder.fit_transform(x)

print(x_encoded.shape) # Example output: (number_of_samples, 115)

Como esperado, o número de colunas aumenta devido ao processo de codificação, expandindo de 23 para 115 em nosso exemplo.

Tratamento de Dados Desbalanceados

Conjuntos de dados desbalanceados podem enviesar seu modelo em direção à classe majoritária, reduzindo sua capacidade de prever a classe minoritária com precisão. Veja como resolver isso:

Verificar Desbalanceamento:

Java

from collections import Counter counter = Counter(y) print(counter) # Example output: {0: 2700, 1: 900}

1
2
3
4

from collections import Counter

counter = Counter(y)
print(counter) # Example output: {0: 2700, 1: 900}

Se uma classe significativamente supera a outra (por exemplo, 75% vs. 25%), o balanceamento é necessário.

Upsampling da Classe Minoritária:

from sklearn.utils import resample

# Combinar em um único DataFrame
data = pd.concat([x_encoded, y], axis=1)

# Separar classes majoritária e minoritária
majority = data[data.y == 0]
minority = data[data.y == 1]

# Upsample da minoritária
minority_upsampled = resample(minority,
                              replace=True,
                              n_samples=len(majority),
                              random_state=42)

# Combinar majoritária com minoritária upsamplada
balanced_data = pd.concat([majority, minority_upsampled])

# Separar características e alvo
X_balanced = balanced_data.drop('y', axis=1)
y_balanced = balanced_data['y']

from sklearn.utils import resample

# Combinar em um único DataFrame

data = pd.concat([x_encoded, y], axis=1)

# Separar classes majoritária e minoritária

majority = data[data.y == 0]

minority = data[data.y == 1]

# Upsample da minoritária

minority_upsampled = resample(minority,

replace=True,

n_samples=len(majority),

random_state=42)

# Combinar majoritária com minoritária upsamplada

balanced_data = pd.concat([majority, minority_upsampled])

# Separar características e alvo

X_balanced = balanced_data.drop('y', axis=1)

y_balanced = balanced_data['y']

Verificação:

Java

print(Counter(y_balanced)) # Output: {0: 2700, 1: 2700}

1
2

print(Counter(y_balanced))
# Output: {0: 2700, 1: 2700}

Dividindo os Dados

Com os dados balanceados, prosseguimos para dividi-los em conjuntos de treinamento e teste:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_balanced, y_balanced, 
                                                    test_size=0.2, 
                                                    random_state=42)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_balanced, y_balanced,

test_size=0.2,

random_state=42)

Escalonamento de Características

Finalmente, padronizamos as características para garantir que cada característica contribua igualmente para o desempenho do modelo:

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler(with_mean=False)  # Avoid centering on sparse matrices
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(X_train_scaled.shape)
print(X_test_scaled.shape)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler(with_mean=False) # Avoid centering on sparse matrices

X_train_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

print(X_train_scaled.shape)

print(X_test_scaled.shape)

Nota: Ao lidar com matrizes esparsas resultantes da codificação one-hot, definir with_mean=False no StandardScaler evita erros relacionados ao centramento.

Conclusão

O pré-processamento de dados é tanto uma arte quanto uma ciência, exigindo decisões ponderadas para preparar seu conjunto de dados de forma eficaz. Ao tratar valores faltantes, codificar variáveis categóricas, gerenciar características de data e balancear seus dados, você estabelece uma base sólida para construir modelos de aprendizado de máquina robustos. Lembre-se, a qualidade dos seus dados influencia diretamente o desempenho dos seus modelos, portanto, invista o tempo e esforço necessários nestas etapas de pré-processamento.

Sinta-se à vontade para revisitar este notebook Jupyter para uma experiência prática e não hesite em entrar em contato se tiver alguma dúvida. Boas modelagens!