S10L03 – Visualización del modelo de árbol de decisión

html
Visualización de la Regresión con Árboles de Decisión en Python: Una Guía Completa
¡Descubre el poder de la Regresión con Árboles de Decisión con Python! En esta guía completa, te guiaremos a través de la visualización de un modelo de Regresión con Árboles de Decisión utilizando las potentes bibliotecas de Python. Ya seas un científico de datos en ciernes o un profesional experimentado, comprender cómo visualizar e interpretar tus modelos es crucial para tomar decisiones informadas. Profundizaremos en conceptos como el subajuste y sobreajuste, la evaluación del modelo y la implementación práctica utilizando conjuntos de datos del mundo real.

Tabla de Contenidos

  Introducción a la Regresión con Árboles de Decisión
  Comprendiendo el Conjunto de Datos
  Configurando tu Entorno
  Exploración y Visualización de Datos
  Preparando los Datos
  Construyendo el Modelo de Árbol de Decisión
  Realizando Predicciones
  Comparando Valores Reales vs. Predichos
  Evaluación del Modelo
  Visualizando el Modelo
  Comprendiendo el Subajuste y Sobreajuste
  Conclusión


1. Introducción a la Regresión con Árboles de Decisión
La Regresión con Árboles de Decisión es un algoritmo de aprendizaje automático versátil y poderoso utilizado para predecir resultados continuos. A diferencia de los modelos de regresión lineal, los árboles de decisión pueden capturar relaciones e interacciones complejas entre características sin requerir una extensa preprocesamiento de datos. Visualizar estos árboles ayuda a comprender el proceso de toma de decisiones del modelo, facilitando la interpretación y comunicación de los resultados.
Por Qué la Visualización es Importante:

  Interpretabilidad: Comprender fácilmente cómo el modelo realiza predicciones.
  Depuración: Identificar y rectificar fallas del modelo como el sobreajuste o subajuste.
  Comunicación: Presentar ideas claras a los interesados.


2. Comprendiendo el Conjunto de Datos
Para nuestra demostración, utilizaremos el conjunto de datos de Ingreso Per Cápita de Canadá de Kaggle. Este conjunto de datos contiene información sobre el ingreso anual per cápita en los Estados Unidos desde 1950 hasta 2030, medido en dólares estadounidenses.
Datos de Muestra:

  
    Año
    Ingreso Per Cápita (US$)
  
  
    1970
    3399.30
  
  
    1971
    3768.30
  
  
    1972
    4251.18
  
  
    1973
    4804.46
  
  
    1974
    5576.51
  


3. Configurando tu Entorno
Antes de sumergirnos en la implementación, asegúrate de tener instaladas las bibliotecas necesarias. Utilizaremos bibliotecas como numpy, pandas, matplotlib, seaborn, y scikit-learn.




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
from sklearn import tree
			
				
					
				
					1
2
3
4
5
6
7
8
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score
from sklearn import tree
					
				
			
		


¿Por Qué Estas Bibliotecas?

  NumPy & Pandas: Manipulación y análisis de datos eficiente.
  Matplotlib & Seaborn: Visualización de datos de alta calidad.
  Scikit-learn: Herramientas y algoritmos de aprendizaje automático robustos.


4. Exploración y Visualización de Datos
Comprender tus datos es el primer paso crucial. Vamos a visualizar el ingreso per cápita a lo largo de los años para identificar tendencias.




		
		
			
			
Java
			
			# Cargar el conjunto de datos
data = pd.read_csv('canada_per_capita_income.csv')

# Mostrar las primeras filas
print(data.head())

# Gráfico de dispersión
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.title('Ingreso Per Cápita de Canadá a lo Largo de los Años')
plt.xlabel('Ingreso Per Cápita (US$)')
plt.ylabel('Año')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
				
						# Cargar el conjunto de datos
data = pd.read_csv('canada_per_capita_income.csv')
 
# Mostrar las primeras filas
print(data.head())
 
# Gráfico de dispersión
sns.scatterplot(data=data, x='per capita income (US$)', y='year')
plt.title('Ingreso Per Cápita de Canadá a lo Largo de los Años')
plt.xlabel('Ingreso Per Cápita (US$)')
plt.ylabel('Año')
plt.show()
					
				
			
		


Salida:

Perspectivas:

  Existe una clara tendencia ascendente en el ingreso per cápita desde 1970 hasta principios de los 2000.
  Algunas fluctuaciones indican eventos económicos que impactan los niveles de ingreso.


5. Preparando los Datos
Antes de modelar, necesitamos dividir los datos en características (X) y objetivo (Y), seguido de una división de entrenamiento y prueba para evaluar el rendimiento del modelo.




		
		
			
			
Java
			
			# Características y Objetivo
X = data[['year']]  # Predictor
Y = data['per capita income (US$)']  # Objetivo

# División de Entrenamiento y Prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Características y Objetivo
X = data[['year']]  # Predictor
Y = data['per capita income (US$)']  # Objetivo
 
# División de Entrenamiento y Prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
					
				
			
		


¿Por Qué División de Entrenamiento y Prueba?

  Conjunto de Entrenamiento: Para entrenar el modelo.
  Conjunto de Prueba: Para evaluar el rendimiento del modelo en datos no vistos.


6. Construyendo el Modelo de Árbol de Decisión
Con los datos listos, construyamos y entrenemos un Regresor de Árbol de Decisión.




		
		
			
			
Java
			
			# Inicializar el modelo con una profundidad máxima de 10
model = DecisionTreeRegressor(max_depth=10)

# Entrenar el modelo
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
5
				
						# Inicializar el modelo con una profundidad máxima de 10
model = DecisionTreeRegressor(max_depth=10)
 
# Entrenar el modelo
model.fit(X_train, y_train)
					
				
			
		


Parámetros Explicados:

  max_depth: Controla la profundidad máxima del árbol. Árboles más profundos pueden capturar patrones más complejos pero pueden sobreajustar.


7. Realizando Predicciones
Después del entrenamiento, utiliza el modelo para hacer predicciones en el conjunto de prueba.




		
		
			
			
Java
			
			# Hacer predicciones
y_pred = model.predict(X_test)

# Mostrar predicciones
print(y_pred)
			
				
					
				
					1
2
3
4
5
				
						# Hacer predicciones
y_pred = model.predict(X_test)
 
# Mostrar predicciones
print(y_pred)
					
				
			
		


Salida de Muestra:




		
		
			
			
Java
			
			[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725]
			
				
					
				
					1
2
				
						[15875.58673  17266.09769  37446.48609  25719.14715   3768.297935
 5576.514583 16622.67187  18601.39724  41039.8936   16369.31725]
					
				
			
		



8. Comparando Valores Reales vs. Predichos
Es esencial comparar los valores reales con las predicciones del modelo para evaluar el rendimiento visualmente.




		
		
			
			
Java
			
			# Crear un DataFrame de comparación
comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})

print(comparison)
			
				
					
				
					1
2
3
4
5
6
7
				
						# Crear un DataFrame de comparación
comparison = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
 
print(comparison)
					
				
			
		


Salida de Muestra:

  
    
    Actual
    Predicted
  
  
    24
    15755.82
    15875.59
  
  
    22
    16412.08
    17266.10
  
  
    39
    32755.18
    37446.49
  
  
    35
    29198.06
    25719.15
  
  
    2
    4251.17
    3768.30
  
  
    3
    4804.46
    5576.51
  
  
    29
    17581.02
    16622.67
  
  
    32
    19232.18
    18601.40
  
  
    45
    35175.19
    41039.89
  
  
    26
    16699.83
    16369.32
  

Visualización:




		
		
			
			
Java
			
			plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Ingreso Per Cápita Actual vs Predicho')
plt.xlabel('Año')
plt.ylabel('Ingreso Per Cápita (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
				
						plt.scatter(X_test, y_test, color='blue', label='Actual')
plt.scatter(X_test, y_pred, color='red', label='Predicted')
plt.title('Ingreso Per Cápita Actual vs Predicho')
plt.xlabel('Año')
plt.ylabel('Ingreso Per Cápita (US$)')
plt.legend()
plt.show()
					
				
			
		




9. Evaluación del Modelo
Para evaluar cuantitativamente el rendimiento del modelo, usaremos el puntaje R², que indica qué tan bien el modelo explica la variabilidad de los datos objetivo.




		
		
			
			
Java
			
			# Calcular Puntaje R2
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
			
				
					
				
					1
2
3
				
						# Calcular Puntaje R2
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")
					
				
			
		


Salida:




		
		
			
			
Java
			
			R² Score: 0.93
			
				
					
				
					1
				
						R² Score: 0.93
					
				
			
		


Interpretación:

  Un puntaje R² de 0.93 implica que el 93% de la variabilidad en el ingreso per cápita es explicada por el modelo.
  Esto indica un rendimiento predictivo fuerte.


10. Visualizando el Modelo
La visualización ayuda a comprender el proceso de toma de decisiones del modelo. Graficaremos el árbol de regresión y las predicciones del modelo.
Graficando Predicciones en un Rango de Años




		
		
			
			
Java
			
			# Definir un rango de años para la predicción
vals = np.arange(1950, 2050, 2).reshape(-1, 1)

# Predecir usando el modelo
predictions = model.predict(vals)

# Graficar
plt.scatter(X, Y, color='blue', label='Datos')
plt.plot(vals, predictions, color='red', label='Predicción del Árbol de Decisión')
plt.title('Modelo de Regresión con Árbol de Decisión')
plt.xlabel('Año')
plt.ylabel('Ingreso Per Cápita (US$)')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						# Definir un rango de años para la predicción
vals = np.arange(1950, 2050, 2).reshape(-1, 1)
 
# Predecir usando el modelo
predictions = model.predict(vals)
 
# Graficar
plt.scatter(X, Y, color='blue', label='Datos')
plt.plot(vals, predictions, color='red', label='Predicción del Árbol de Decisión')
plt.title('Modelo de Regresión con Árbol de Decisión')
plt.xlabel('Año')
plt.ylabel('Ingreso Per Cápita (US$)')
plt.legend()
plt.show()
					
				
			
		



Visualizando la Estructura del Árbol de Decisión
Comprender la estructura del árbol es vital para interpretar cómo se toman las decisiones.




		
		
			
			
Java
			
			# Graficar el árbol de decisión
plt.figure(figsize=(25,15))
tree.plot_tree(model, fontsize=10, feature_names=['Year'], filled=True)
plt.title('Estructura del Árbol de Decisión')
plt.show()
			
				
					
				
					1
2
3
4
5
				
						# Graficar el árbol de decisión
plt.figure(figsize=(25,15))
tree.plot_tree(model, fontsize=10, feature_names=['Year'], filled=True)
plt.title('Estructura del Árbol de Decisión')
plt.show()
					
				
			
		




11. Comprendiendo el Subajuste y Sobreajuste
Balancear la complejidad del modelo es crucial. Exploremos cómo ajustar el parámetro max_depth afecta el rendimiento del modelo.
Subajuste:

  Definición: El modelo es demasiado simple, capturando ni la tendencia ni el ruido.
  Indicador: Puntaje R² bajo, rendimiento pobre tanto en los datos de entrenamiento como en los de prueba.





		
		
			
			
Java
			
			# Inicializar modelo con low max_depth
underfit_model = DecisionTreeRegressor(max_depth=2)
underfit_model.fit(X_train, y_train)
under_pred = underfit_model.predict(X_test)
under_r2 = r2_score(y_test, under_pred)
print(f"R² del Modelo Subajustado: {under_r2:.2f}")
			
				
					
				
					1
2
3
4
5
6
				
						# Inicializar modelo con low max_depth
underfit_model = DecisionTreeRegressor(max_depth=2)
underfit_model.fit(X_train, y_train)
under_pred = underfit_model.predict(X_test)
under_r2 = r2_score(y_test, under_pred)
print(f"R² del Modelo Subajustado: {under_r2:.2f}")
					
				
			
		


Salida:




		
		
			
			
Java
			
			R² del Modelo Subajustado: 0.65
			
				
					
				
					1
				
						R² del Modelo Subajustado: 0.65
					
				
			
		


Visualización:

Explicación:

  El modelo no logra capturar la tendencia subyacente, lo que lleva a predicciones inexactas.

Sobreajuste:

  Definición: El modelo es demasiado complejo, capturando ruido además de la tendencia.
  Indicador: Alto R² en los datos de entrenamiento pero mala generalización a los datos de prueba.





		
		
			
			
Java
			
			# Inicializar modelo con high max_depth
overfit_model = DecisionTreeRegressor(max_depth=10)
overfit_model.fit(X_train, y_train)
over_pred = overfit_model.predict(X_test)
over_r2 = r2_score(y_test, over_pred)
print(f"R² del Modelo Sobreajustado: {over_r2:.2f}")
			
				
					
				
					1
2
3
4
5
6
				
						# Inicializar modelo con high max_depth
overfit_model = DecisionTreeRegressor(max_depth=10)
overfit_model.fit(X_train, y_train)
over_pred = overfit_model.predict(X_test)
over_r2 = r2_score(y_test, over_pred)
print(f"R² del Modelo Sobreajustado: {over_r2:.2f}")
					
				
			
		


Salida:




		
		
			
			
Java
			
			R² del Modelo Sobreajustado: 0.92
			
				
					
				
					1
				
						R² del Modelo Sobreajustado: 0.92
					
				
			
		


Visualización:

Explicación:

  El modelo se ajusta excepcionalmente bien a los datos de entrenamiento pero puede tener dificultades con datos no vistos debido a su complejidad.

Profundidad Óptima:
Encontrar un equilibrio asegura que el modelo generalice bien sin ser demasiado simplista o excesivamente complejo.

12. Conclusión
Visualizar modelos de Regresión con Árboles de Decisión ofrece perspectivas invaluables sobre sus procesos de toma de decisiones, rendimiento y potenciales trampas como el subajuste y sobreajuste. Al ajustar parámetros como max_depth, puedes adaptar la complejidad del modelo para adecuarse a las complejidades de tus datos, asegurando predicciones robustas y confiables.
Conclusiones Clave:

  Visualización del Modelo: Esencial para la interpretabilidad y depuración.
  Subajuste vs. Sobreajuste: Balancear la complejidad es crucial para un rendimiento óptimo.
  Métricas de Evaluación: Utiliza el puntaje R² para cuantificar el rendimiento del modelo.

Adopta estas técnicas de visualización para mejorar tus proyectos de ciencia de datos, haciendo que tus modelos no solo sean precisos sino también transparentes y confiables.

Mejora tu viaje en ciencia de datos dominando la Regresión con Árboles de Decisión y su visualización. ¡Mantente atento para más tutoriales y perspectivas que elevarán tus habilidades analíticas!
	Actual	Predicted
24	15755.82	15875.59
22	16412.08	17266.10
39	32755.18	37446.49
35	29198.06	25719.15
2	4251.17	3768.30
3	4804.46	5576.51
29	17581.02	16622.67
32	19232.18	18601.40
45	35175.19	41039.89
26	16699.83	16369.32