S10L02 – Implementação de Árvore de Decisão – 1 característica

html
Dominando a Regressão com Árvores de Decisão com Scikit-Learn: Um Guia Abrangente

No cenário em constante evolução da aprendizagem de máquina, as árvores de decisão destacam-se como modelos versáteis e intuitivos tanto para tarefas de classificação quanto de regressão. Seja você um entusiasta de ciência de dados ou um profissional experiente, entender como implementar e otimizar árvores de decisão é essencial. Neste guia, iremos nos aprofundar na regressão com árvores de decisão usando Scikit-Learn, aproveitando exemplos práticos e conjuntos de dados do mundo real para solidificar seu entendimento.

Índice

	Introdução às Árvores de Decisão
	Entendendo a Estrutura da Árvore de Decisão
	Implementando Regressão com Árvore de Decisão em Python
	Ajuste de Hiperparâmetros: O Papel da Profundidade Máxima
	Visualizando Árvores de Decisão
	Avaliando o Desempenho do Modelo
	Desafios e Limitações
	Conclusão
	Leitura Adicional




Introdução às Árvores de Decisão

Árvores de decisão são um componente fundamental da aprendizagem de máquina, valorizadas por sua simplicidade e interpretabilidade. Elas mimetizam os processos de tomada de decisão humana, dividindo decisões complexas em uma série de escolhas binárias mais simples. Isso as torna particularmente úteis para tarefas de classificação (categorização de dados) e regressão (previsão de valores contínuos).

Por Que Usar Árvores de Decisão?


	Interpretabilidade: Fácil de visualizar e entender.
	Não-Paramétrico: Não faz suposições sobre a distribuição dos dados.
	Versatilidade: Aplicável a vários tipos de dados e problemas.


No entanto, como todos os modelos, as árvores de decisão têm seus próprios desafios, como overfitting e complexidade computacional, que exploraremos mais adiante neste guia.

Entendendo a Estrutura da Árvore de Decisão

No núcleo de uma árvore de decisão está sua estrutura, que compreende nós e ramos:


	Nó Raiz: O nó mais alto que representa todo o conjunto de dados.
	Nós Internos: Representam pontos de decisão baseados nos valores das características.
	Nós Folha: Representam a saída final ou previsão.


Conceitos Chave


	Profundidade da Árvore: O caminho mais longo da raiz até um nó folha. A profundidade de uma árvore pode impactar significativamente seu desempenho.
	Profundidade Máxima: Um hiperparâmetro que limita a profundidade da árvore para prevenir overfitting.
	Underfitting e Overfitting:
		
			Underfitting: Quando o modelo é muito simples (por exemplo, profundidade máxima muito baixa), ele não consegue capturar os padrões subjacentes.
			Overfitting: Quando o modelo é muito complexo (por exemplo, profundidade máxima muito alta), ele captura ruído nos dados de treinamento, reduzindo a capacidade de generalização.
		
	


Implementando Regressão com Árvore de Decisão em Python

Vamos percorrer um exemplo prático usando o DecisionTreeRegressor do Scikit-Learn. Usaremos o conjunto de dados "Renda Per Capita do Canadá" para prever a renda com base no ano.

Passo 1: Importando Bibliotecas





		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

sns.set()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
 
sns.set()
					
				
			
		



Passo 2: Carregando o Conjunto de Dados





		
		
			
			
Java
			
			# Fonte do Conjunto de Dados: https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
			
				
					
				
					1
2
3
4
				
						# Fonte do Conjunto de Dados: https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
					
				
			
		



Passo 3: Análise Exploratória de Dados





		
		
			
			
Java
			
			print(data.head())

# Visualizando os Dados
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.show()
			
				
					
				
					1
2
3
4
5
				
						print(data.head())
 
# Visualizando os Dados
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.show()
					
				
			
		



Saída:




		
		
			
			
Java
			
			   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
			
				
					
				
					1
2
3
4
5
6
				
						   year  per capita income (US$)
0  1970              3399.299037
1  1971              3768.297935
2  1972              4251.175484
3  1973              4804.463248
4  1974              5576.514583
					
				
			
		




Passo 4: Dividindo os Dados





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



Passo 5: Construindo e Treinando o Modelo





		
		
			
			
Java
			
			model = DecisionTreeRegressor()
model.fit(X_train, y_train)
			
				
					
				
					1
2
				
						model = DecisionTreeRegressor()
model.fit(X_train, y_train)
					
				
			
		



Passo 6: Fazendo Previsões





		
		
			
			
Java
			
			y_pred = model.predict(X_test)
print(y_pred)
			
				
					
				
					1
2
				
						y_pred = model.predict(X_test)
print(y_pred)
					
				
			
		



Saída:




		
		
			
			
Java
			
			[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725 ]
			
				
					
				
					1
2
				
						[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725 ]
					
				
			
		



Ajuste de Hiperparâmetros: O Papel da Profundidade Máxima

Um dos hiperparâmetros cruciais nas árvores de decisão é max_depth, que controla a profundidade máxima da árvore.

Impacto da Profundidade Máxima


	Baixa Profundidade Máxima (por exemplo, 1):
		
			Prós: Simplicidade, menor risco de overfitting.
			Contras: Potencial de underfitting, desempenho ruim em dados complexos.
			Exemplo: Definir max_depth=1 pode fazer com que o modelo considere apenas se o fim de semana determina jogar badminton, ignorando outros fatores como o clima.
		
	
	Alta Profundidade Máxima (por exemplo, 25):
		
			Prós: Capacidade de capturar padrões complexos.
			Contras: Aumento do risco de overfitting, tempos de treinamento mais longos.
			Exemplo: Uma max_depth de 25 pode levar o modelo a se tornar excessivamente complexo, capturando ruído em vez da distribuição subjacente.
		
	


Encontrando a Profundidade Máxima Ótima

A profundidade máxima ideal equilibra viés e variância, garantindo que o modelo generalize bem para dados não vistos. Técnicas como validação cruzada podem ajudar a determinar o melhor valor.





		
		
			
			
Java
			
			# Exemplo: Definindo max_depth para 10
model = DecisionTreeRegressor(max_depth=10)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(r2_score(y_test, y_pred))
			
				
					
				
					1
2
3
4
5
				
						# Exemplo: Definindo max_depth para 10
model = DecisionTreeRegressor(max_depth=10)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(r2_score(y_test, y_pred))
					
				
			
		



Saída:




		
		
			
			
Java
			
			0.9283605684543206
			
				
					
				
					1
				
						0.9283605684543206
					
				
			
		



Um escore R² de aproximadamente 0,92 indica um bom ajuste, mas é essencial validar isso com diferentes profundidades e validação cruzada.

Visualizando Árvores de Decisão

A visualização auxilia na compreensão de como a árvore de decisão faz previsões.

Visualizando o Modelo


	Importância das Características: Determina quais características a árvore considera mais importantes.
		



		
		
			
			
Java
			
			feature_importances = model.feature_importances_
print(feature_importances)
			
				
					
				
					1
2
				
						feature_importances = model.feature_importances_
print(feature_importances)
					
				
			
		


	
	Estrutura da Árvore: Exibe a estrutura da árvore usando o plot_tree do Scikit-Learn.
		



		
		
			
			
Java
			
			from sklearn import tree

plt.figure(figsize=(12,8))
tree.plot_tree(model, filled=True, feature_names=X.columns, rounded=True)
plt.show()
			
				
					
				
					1
2
3
4
5
				
						from sklearn import tree
 
plt.figure(figsize=(12,8))
tree.plot_tree(model, filled=True, feature_names=X.columns, rounded=True)
plt.show()
					
				
			
		


	




Tarefa Prática


	Visualize o Modelo: Use plot_tree para visualizar como as divisões de decisão são feitas.
	Exiba a Árvore de Decisão Diretamente: Interprete a árvore para entender as decisões das características.
	Explore Mais: Visite Exemplo de Regressão com Árvore de Decisão do Scikit-Learn para um entendimento mais aprofundado.


Avaliando o Desempenho do Modelo

Avaliar o desempenho do modelo é crucial para garantir sua confiabilidade.





		
		
			
			
Java
			
			from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
			
				
					
				
					1
2
3
4
				
						from sklearn.metrics import r2_score
 
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
					
				
			
		



Saída:




		
		
			
			
Java
			
			R² Score: 0.93
			
				
					
				
					1
				
						R² Score: 0.93
					
				
			
		



Um escore R² próximo de 1 indica que o modelo explica uma alta proporção da variância na variável alvo.

Desafios e Limitações

Embora as árvores de decisão sejam poderosas, elas apresentam certas desvantagens:


	Overfitting: Árvores profundas podem capturar ruído, reduzindo a capacidade de generalização.
	Complexidade de Tempo: O tempo de treinamento aumenta com o tamanho do conjunto de dados e a dimensionalidade das características.
	Complexidade de Espaço: Armazenar árvores grandes pode consumir memória significativa.
	Bias com Dados Categóricos: Árvores de decisão podem ter dificuldades com variáveis categóricas de alta cardinalidade.


Abordando as Limitações


	Pruning: Limitar a profundidade da árvore e eliminar ramificações que têm pouco poder em prever as variáveis alvo.
	Métodos de Ensemble: Técnicas como Florestas Aleatórias ou Gradient Boosting podem mitigar overfitting e melhorar o desempenho.
	Engenharia de Características: Reduzir a dimensionalidade das características e codificar variáveis categóricas de forma eficaz.


Conclusão

A regressão com árvores de decisão é uma técnica fundamental na aprendizagem de máquina, oferecendo simplicidade e interpretabilidade. Ao entender sua estrutura, otimizar hiperparâmetros como max_depth e abordar suas limitações, você pode aproveitar todo o seu potencial. Seja prevendo níveis de renda, preços de imóveis ou qualquer variável contínua, as árvores de decisão fornecem um ponto de partida robusto.

Leitura Adicional


	Documentação das Árvores de Decisão do Scikit-Learn
	Entendendo Viés e Variância
	Métodos de Ensemble na Aprendizagem de Máquina




Abrace o poder das árvores de decisão em seu kit de ferramentas de ciência de dados e continue explorando tópicos avançados para elevar seus modelos a novos patamares.