Manejando a Regressão Linear Múltipla: Um Guia Abrangente para Codificação de Variáveis Categóricas

Índice

Compreendendo Dados Categóricos em Modelos de Regressão
Codificação de Rótulo vs. Codificação One-Hot
Demonstração Prática Usando Python e Jupyter Notebook
A Armadilha das Variáveis Dummies na Regressão Linear Múltipla
Etapas de Pré-processamento para Modelos de Regressão
Avaliando o Modelo
Conclusão

Compreendendo Dados Categóricos em Modelos de Regressão

Regressão linear múltipla é uma técnica estatística que modela a relação entre uma variável dependente e múltiplas variáveis independentes. Enquanto dados numéricos podem ser usados diretamente nesses modelos, dados categóricos—que representam características ou rótulos—exigem transformação para serem utilizados de forma eficaz.

Por Que a Codificação Importa

Variáveis categóricas, como “sexo” ou “região”, são não numéricas e precisam ser convertidas para um formato numérico. A codificação adequada garante que o algoritmo de aprendizado de máquina interprete essas variáveis corretamente sem introduzir viés ou padrões enganosos.

Codificação de Rótulo vs. Codificação One-Hot

Ao lidar com variáveis categóricas, duas técnicas de codificação principais são empregadas:

Codificação de Rótulo: Converte cada categoria em um número inteiro único. Adequada para categorias binárias ou dados ordinais onde a ordem importa.
Codificação One-Hot: Cria colunas binárias para cada categoria, removendo efetivamente qualquer relação ordinal e permitindo que o modelo trate cada categoria de forma independente.

Escolher o método de codificação correto é crucial para o desempenho e interpretabilidade do modelo.

Demonstração Prática Usando Python e Jupyter Notebook

Vamos realizar um exemplo prático utilizando a biblioteca scikit-learn do Python e o Jupyter Notebook para demonstrar a codificação de rótulo e a codificação one-hot em um modelo de regressão linear múltipla.

Importando Bibliotecas

Comece importando as bibliotecas necessárias para manipulação de dados, visualização e aprendizado de máquina.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

sns.set()

Carregando e Explorando o Conjunto de Dados

Vamos usar o conjunto de dados de Seguro do Kaggle, que contém informações sobre dados demográficos de indivíduos e gastos com seguros.

# Load the dataset
data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')

# Separate features and target variable
X = data.iloc[:,:-1]
Y = data.iloc[:,-1]

# Display the first few rows
data.head()

# Load the dataset

data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')

# Separate features and target variable

X = data.iloc[:,:-1]

Y = data.iloc[:,-1]

# Display the first few rows

data.head()

Saída:

idade	sexo	imc	filhos	fumante	região	custos
19	feminino	27.900	0	sim	sudoeste	16884.92400
18	masculino	33.770	1	não	sudeste	1725.55230
28	masculino	33.000	3	não	sudeste	4449.46200
33	masculino	22.705	0	não	noroeste	21984.47061
32	masculino	28.880	0	não	noroeste	3866.85520

Codificação de Rótulo para Características Categóricas

A Codificação de Rótulo é ideal para variáveis categóricas binárias. Neste conjunto de dados, “sexo” e “fumante” são binárias e, portanto, adequadas para a codificação de rótulo.

from sklearn import preprocessing
le = preprocessing.LabelEncoder()

# Encode 'sex' and 'smoker' columns
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])

# Display the transformed features
X

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

# Encode 'sex' and 'smoker' columns

X['sex'] = le.fit_transform(X['sex'])

X['smoker'] = le.fit_transform(X['smoker'])

# Display the transformed features

Saída:

idade	sexo	imc	filhos	fumante	região
19	0	27.900	0	1	sudoeste
18	1	33.770	1	0	sudeste
28	1	33.000	3	0	sudeste
33	1	22.705	0	0	noroeste
32	1	28.880	0	0	noroeste
…	…	…	…	…	…
61	0	29.070	0	1	noroeste

Codificação One-Hot para Características Categóricas

Para variáveis categóricas com mais de duas categorias, a Codificação One-Hot é preferível para evitar a introdução de relações ordinais.

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# Apply One-Hot Encoding to the 'region' column (index 5)
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)

# Display the transformed features
print(X)

from sklearn.preprocessing import OneHotEncoder

from sklearn.compose import ColumnTransformer

# Apply One-Hot Encoding to the 'region' column (index 5)

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')

X = columnTransformer.fit_transform(X)

# Display the transformed features

print(X)

Saída:

[[ 0.    0.    0.   ... 27.9   0.    1.  ]
 [ 0.    0.    1.   ... 33.77  1.    0.  ]
 [ 0.    0.    1.   ... 33.    3.    0.  ]
 ...
 [ 0.    0.    1.   ... 36.85  0.    0.  ]
 [ 0.    0.    0.   ... 25.8   0.    0.  ]
 [ 0.    1.    0.   ... 29.07  0.    1.  ]]

[[ 0. 0. 0. ... 27.9 0. 1. ]

[ 0. 0. 1. ... 33.77 1. 0. ]

[ 0. 0. 1. ... 33. 3. 0. ]

...

[ 0. 0. 1. ... 36.85 0. 0. ]

[ 0. 0. 0. ... 25.8 0. 0. ]

[ 0. 1. 0. ... 29.07 0. 1. ]]

A Armadilha das Variáveis Dummies na Regressão Linear Múltipla

Ao empregar a Codificação One-Hot, é essencial estar atento à armadilha das variáveis dummies—um cenário onde a multicolinearidade surge devido a variáveis dummies redundantes. Isso pode levar a estimativas de variância inflacionadas e coeficientes de modelo não confiáveis.

Compreendendo a Armadilha

Se três variáveis dummies são criadas para uma característica categórica com três categorias (por exemplo, Sudoeste, Noroeste, Central), incluir todas as três no modelo de regressão introduz perfeita multicolinearidade. Isso ocorre porque uma variável pode ser exatamente prevista a partir das outras, fazendo com que a inversão da matriz necessária para a regressão falhe.

Solução

Para evitar a armadilha das variáveis dummies, elimine uma das variáveis dummies. Isso garante que o modelo permaneça identificável e evita a multicolinearidade.

# Modify OneHotEncoder to drop one category
columnTransformer = ColumnTransformer(
    [("encoder", OneHotEncoder(drop='first'), [5])],
    remainder='passthrough'
)
X = columnTransformer.fit_transform(X)

# Modify OneHotEncoder to drop one category

columnTransformer = ColumnTransformer(

[("encoder", OneHotEncoder(drop='first'), [5])],

remainder='passthrough'

)

X = columnTransformer.fit_transform(X)

Etapas de Pré-processamento para Modelos de Regressão

O pré-processamento eficaz é crucial para construir modelos de regressão robustos. Aqui está um resumo das etapas essenciais:

Importação de Dados: Carregue seu conjunto de dados usando pandas.
Tratamento de Dados Faltantes: Aborde quaisquer valores ausentes através de imputação ou remoção.
Divisão Treino-Teste: Divida os dados em conjuntos de treinamento e teste para avaliar o desempenho do modelo.
Seleção de Características: Embora bibliotecas como scikit-learn lidem com isso internamente, compreender a importância das características pode ser benéfico.
Codificação de Variáveis Categóricas: Como discutido, use codificação de rótulo ou codificação one-hot de forma apropriada.
Tratamento de Dados Desbalanceados: Normalmente não aplicável em regressão, a menos que distribuições específicas sejam necessárias.
Escalonamento de Características: Enquanto frequentemente essencial em classificação, pode ser opcional em modelos de regressão.

Nota: Em modelos de regressão, o escalonamento de características é geralmente opcional, pois o escalonamento pode às vezes obscurecer a interpretabilidade dos coeficientes.

Avaliando o Modelo

Após o pré-processamento, é hora de construir e avaliar o modelo de regressão.

Construindo o Modelo Linear

from sklearn.linear_model import LinearRegression

# Initialize and train the model
model = LinearRegression()
model.fit(X_train, y_train)

from sklearn.linear_model import LinearRegression

# Initialize and train the model

model = LinearRegression()

model.fit(X_train, y_train)

Fazendo Previsões

# Predict on the test set
y_pred = model.predict(X_test)

1 2	# Predict on the test set y_pred = model.predict(X_test)

Comparando Valores Reais vs. Previstos

# Create a comparison DataFrame
comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
comparison.head()

# Create a comparison DataFrame

comparison = pd.DataFrame({

'Actual': y_test,

'Predicted': y_pred

})

comparison.head()

Saída:

Real	Previsto
1646.4297	4383.6809
11353.2276	12885.0389
8798.5930	12589.2165
10381.4787	13286.2292
2103.0800	544.7283

Avaliando com o Score R²

O score R² mede a proporção da variância na variável dependente que é previsível a partir das variáveis independentes.

from sklearn.metrics import r2_score

# Calculate R² score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2}")

from sklearn.metrics import r2_score

# Calculate R² score

r2 = r2_score(y_test, y_pred)

print(f"R² Score: {r2}")

Saída:

R² Score: 0.7623311844057112

1	R² Score: 0.7623311844057112

Um score R² de aproximadamente 0.76 indica que 76% da variabilidade nos custos de seguro pode ser explicada pelo modelo, o que é um desempenho respeitável para muitas aplicações.

Conclusão

Manejar a regressão linear múltipla envolve mais do que apenas ajustar um modelo aos dados. Codificar corretamente variáveis categóricas usando técnicas como codificação de rótulo e codificação one-hot, enquanto se está atento a armadilhas como a armadilha das variáveis dummies, é essencial para construir modelos precisos e confiáveis. Seguindo as etapas de pré-processamento e aproveitando as robustas bibliotecas do Python, você pode navegar efetivamente pelas complexidades da análise de regressão e extrair insights significativos de seus dados.

Perguntas Frequentes (FAQs)

1. Qual é a diferença entre codificação de rótulo e codificação one-hot?

A codificação de rótulo atribui um número inteiro único para cada categoria, preservando relações ordinais, tornando-a ideal para variáveis categóricas binárias ou ordinais. A codificação one-hot cria colunas binárias para cada categoria, eliminando qualquer relação ordinal e impedindo que o algoritmo assuma qualquer ordem inerente.

2. Por que o escalonamento de características é opcional em modelos de regressão?

Diferentemente dos modelos de classificação onde o escalonamento de características pode impactar significativamente o desempenho de certos algoritmos, os modelos de regressão costumam lidar melhor com diferentes escalas de características. No entanto, em alguns casos, especialmente quando a regularização está envolvida, o escalonamento ainda pode ser benéfico.

3. Como posso evitar a armadilha das variáveis dummies?

Para evitar a armadilha das variáveis dummies, elimine uma variável dummy de cada conjunto de variáveis categóricas após a codificação one-hot. Isso remove a multicolinearidade e garante um modelo mais estável.

4. O que significa um score R² em modelos de regressão?

O score R² mede a proporção da variância na variável dependente que é previsível a partir das variáveis independentes. Um R² mais alto indica um melhor ajuste do modelo aos dados.

5. Posso usar outras técnicas de codificação além da codificação de rótulo e one-hot?

Sim, outras técnicas de codificação como codificação de alvo, codificação de frequência e codificação binária estão disponíveis, cada uma com suas próprias vantagens dependendo do contexto e da natureza dos dados.

Embarcar na jornada da regressão linear múltipla equipa você com ferramentas poderosas para analisar e prever resultados contínuos. Dominando técnicas de codificação de dados e compreendendo as mecânicas subjacentes dos modelos de regressão, você abre caminho para decisões baseadas em dados mais perspicazes e impactantes.