S11L02 – Bosque Aleatorio

html
Mejorando los Modelos Predictivos con Random Forest: Una Guía Práctica

Tabla de Contenidos

Revisitando el Modelo de Árbol de Decisión
Introducción a Random Forest
    
        ¿Por qué Random Forest?
        Pasos de Implementación
        Observaciones
    

Aplicando Random Forest a Otro Conjunto de Datos
    
        Pasos de Implementación
        Conclusión
    

Ajuste de Hiperparámetros
Conclusión


Revisitando el Modelo de Árbol de Decisión

Anteriormente, utilizamos un Regressor de Árbol de Decisión para predecir los cargos de seguro basándonos en un conjunto de datos que contenía características como edad, sexo, IMC, número de hijos, estado de fumador y región. El modelo de Árbol de Decisión obtuvo un respetable puntaje R² de 0.87, lo que indica un buen rendimiento.

Puntos Clave:

Modelo Utilizado: Regressor de Árbol de Decisión
Puntaje R²: 0.87
Características del Conjunto de Datos: Edad, Sexo, IMC, Hijos, Fumador, Región
Variable Objetivo: Cargos de Seguro


Introducción a Random Forest

El algoritmo Random Forest es un método de ensamblaje que construye múltiples árboles de decisión y los fusiona para obtener una predicción más precisa y estable. La transición de un solo Árbol de Decisión a un Random Forest es sencilla en Python, generalmente requiriendo solo dos líneas adicionales de código.

¿Por qué Random Forest?

Método de Ensamblaje: Combina múltiples árboles para mejorar el rendimiento.
Hiperparámetros: Número de estimadores (árboles) y estado aleatorio para reproducibilidad.
Submuestreo Aleatorio: Cada árbol se entrena en un subconjunto aleatorio de los datos, mejorando la robustez del modelo.


Pasos de Implementación

Importar el Regressor Random Forest:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestRegressor
			
				
					
				
					1
				
						from sklearn.ensemble import RandomForestRegressor
					
				
			
		


Instanciar el Modelo:
Reemplaza el Regressor de Árbol de Decisión con el Regressor Random Forest. Por ejemplo:




		
		
			
			
Java
			
			model = RandomForestRegressor(n_estimators=50, random_state=10)
			
				
					
				
					1
				
						model = RandomForestRegressor(n_estimators=50, random_state=10)
					
				
			
		



n_estimators: Número de árboles en el bosque (el valor predeterminado es 100).
random_state: Asegura resultados reproducibles.


Entrenar y Evaluar el Modelo:
Después de actualizar el modelo, ajústalo a los datos de entrenamiento y evalúa su rendimiento utilizando el puntaje R².



Observaciones

Rendimiento Inicial: El modelo Random Forest inicialmente rindió por debajo en comparación con el Árbol de Decisión, logrando un puntaje R² de 0.85.
Ajuste de Hiperparámetros: Aumentar el número de estimadores a 150 produjo mejoras mínimas. Por otro lado, reducir el número de estimadores a 25 disminuyó ligeramente el rendimiento.


Insight Clave: Random Forest no siempre supera a los Árboles de Decisión. El rendimiento puede depender del conjunto de datos y de los hiperparámetros elegidos.

Aplicando Random Forest a Otro Conjunto de Datos

Para evaluar más a fondo la eficacia de Random Forest, consideremos un conjunto de datos diferente con solo una característica. Anteriormente, usar un Árbol de Decisión en este conjunto de datos resultó en un impresionante puntaje R² de 0.92.

Pasos de Implementación

Actualizar la Declaración de Importación:




		
		
			
			
Java
			
			from sklearn.ensemble import RandomForestRegressor
			
				
					
				
					1
				
						from sklearn.ensemble import RandomForestRegressor
					
				
			
		


Instanciar el Modelo con Hiperparámetros:




		
		
			
			
Java
			
			model = RandomForestRegressor(n_estimators=50, random_state=10)
			
				
					
				
					1
				
						model = RandomForestRegressor(n_estimators=50, random_state=10)
					
				
			
		


Entrenar y Evaluar:
Al entrenar, el modelo Random Forest superó al Árbol de Decisión, logrando un puntaje R² más alto (valor exacto no especificado).



Conclusión
En este escenario particular, Random Forest demostró ser más efectivo, destacando la importancia de experimentar con diferentes modelos y hiperparámetros.

Ajuste de Hiperparámetros

El número de estimadores es un hiperparámetro crucial en Random Forest:

Valores Mayores: Generalmente conducen a un mejor rendimiento pero aumentan el costo computacional.
Valores Menores: Más rápidos pero podrían subajustar los datos.


Experimentar con valores como 10, 50, 150 o incluso 500 puede ayudar a identificar el equilibrio óptimo entre rendimiento y eficiencia según el tamaño y la complejidad del conjunto de datos.

Conclusión

Random Forest es una herramienta poderosa y flexible para tareas de regresión y clasificación. Aunque a menudo supera a los Árboles de Decisión individuales al mitigar el sobreajuste y mejorar la precisión, es esencial experimentar con diferentes modelos y hiperparámetros para lograr los mejores resultados para tu conjunto de datos específico.

Próximos Pasos:

Descargar y Experimentar: Accede a los Notebooks de Jupyter proporcionados para probar Random Forest en tus conjuntos de datos.
Explorar Nuevos Modelos: Mantente atento a los próximos tutoriales sobre otros modelos de aprendizaje automático para mejorar aún más tu conjunto de herramientas de análisis predictivo.


¡Gracias por leer! ¡Feliz modelado, y nos vemos en el próximo tutorial!