S19L03 – Visualización y algunas otras cosas

html
Dominando la Visualización de K-Nearest Neighbors (KNN) en Python: Una Guía Completa

Introducción
En el ámbito del aprendizaje automático, el algoritmo K-Nearest Neighbors (KNN) destaca por su simplicidad y efectividad en tareas de clasificación. Sin embargo, comprender e interpretar las fronteras de decisión de KNN puede ser un desafío, especialmente cuando se trata de datos de alta dimensión. Aquí es donde la visualización se convierte en una herramienta poderosa. En esta guía completa, profundizaremos en las complejidades de la visualización de KNN utilizando Python, aprovechando paquetes como mlxtend y matplotlib. Al final de este artículo, estarás equipado con el conocimiento necesario para crear representaciones visuales perspicaces de tus modelos KNN.

Tabla de Contenidos

    Comprendiendo KNN y su Visualización
    Configurando tu Entorno de Python
    Preprocesamiento de Datos: Preparando tu Conjunto de Datos
    Construyendo y Entrenando el Modelo KNN
    Visualizando Fronteras de Decisión
    Interpretando la Visualización
    Conclusión
    Recursos Adicionales




Comprendiendo K-Nearest Neighbors (KNN) y su Visualización

¿Qué es K-Nearest Neighbors (KNN)?
KNN es un algoritmo de aprendizaje no paramétrico y basado en instancias utilizado para tareas de clasificación y regresión. Opera bajo el principio de que puntos de datos similares probablemente estén cerca unos de otros en el espacio de características. Para la clasificación, KNN asigna la clase más común entre sus K vecinos más cercanos.

¿Por qué Visualizar KNN?
La visualización ayuda en:

    Interpretar el Comportamiento del Modelo: Entender cómo KNN toma decisiones basadas en el espacio de características.
    Identificar Sobreajuste o Subajuste: Los patrones visuales pueden revelar si el modelo generaliza bien.
    Comparar el Impacto de las Características: Ver qué características contribuyen más a las fronteras de decisión.




Configurando tu Entorno de Python

Antes de sumergirte en la visualización de KNN, asegúrate de que tu entorno de Python esté configurado con los paquetes necesarios.

Paquetes Requeridos:

    pandas: Manipulación y análisis de datos.
    numpy: Computación numérica.
    scikit-learn: Algoritmos y herramientas de aprendizaje automático.
    mlxtend: Paquetes de extensión para aprendizaje automático.
    matplotlib: Graficación y visualización.


Comando de Instalación:




		
		
			
			
Java
			
			pip install pandas numpy scikit-learn mlxtend matplotlib
			
				
					
				
					1
				
						pip install pandas numpy scikit-learn mlxtend matplotlib
					
				
			
		





Preprocesamiento de Datos: Preparando tu Conjunto de Datos

Un conjunto de datos bien preparado es crucial para construir un modelo KNN efectivo. Usaremos el Conjunto de Datos Weather Australia para este ejemplo.

1. Importando Bibliotecas y Cargando Datos




		
		
			
			
Java
			
			import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt

# Load dataset
data = pd.read_csv('weatherAUS.csv')
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
 
# Load dataset
data = pd.read_csv('weatherAUS.csv')
					
				
			
		



2. Explorando los Datos




		
		
			
			
Java
			
			data.tail()
			
				
					
				
					1
				
						data.tail()
					
				
			
		


Salida:




		
		
			
			
Java
			
			Date Location  MinTemp  MaxTemp  Rainfall  Evaporation  ... Humidity3pm  Pressure9am  ...
142188  2017-06-20    Uluru      3.5     21.8       0.0          NaN  ...        27.0       1024.7  ...
...
			
				
					
				
					1
2
3
				
						Date Location  MinTemp  MaxTemp  Rainfall  Evaporation  ... Humidity3pm  Pressure9am  ...
142188  2017-06-20    Uluru      3.5     21.8       0.0          NaN  ...        27.0       1024.7  ...
...
					
				
			
		



3. Manejo de Datos Faltantes

Características Numéricas:




		
		
			
			
Java
			
			numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns
imp_mean = SimpleImputer(strategy='mean')
data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])
			
				
					
				
					1
2
3
				
						numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns
imp_mean = SimpleImputer(strategy='mean')
data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])
					
				
			
		



Características Categóricas:




		
		
			
			
Java
			
			string_cols = data.select_dtypes(include=['object']).columns
imp_freq = SimpleImputer(strategy='most_frequent')
data[string_cols] = imp_freq.fit_transform(data[string_cols])
			
				
					
				
					1
2
3
				
						string_cols = data.select_dtypes(include=['object']).columns
imp_freq = SimpleImputer(strategy='most_frequent')
data[string_cols] = imp_freq.fit_transform(data[string_cols])
					
				
			
		



4. Codificando Variables Categóricas




		
		
			
			
Java
			
			def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series)

# Encode target variable
data['RainTomorrow'] = LabelEncoderMethod(data['RainTomorrow'])

# One-Hot Encode categorical features
X = data.drop(['RainTomorrow', 'RISK_MM'], axis=1)
X = pd.get_dummies(X, drop_first=True)
y = data['RainTomorrow']
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series)
 
# Encode target variable
data['RainTomorrow'] = LabelEncoderMethod(data['RainTomorrow'])
 
# One-Hot Encode categorical features
X = data.drop(['RainTomorrow', 'RISK_MM'], axis=1)
X = pd.get_dummies(X, drop_first=True)
y = data['RainTomorrow']
					
				
			
		



5. Selección de Características




		
		
			
			
Java
			
			kbest = SelectKBest(score_func=chi2, k=10)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_selected = kbest.fit_transform(X_scaled, y)
			
				
					
				
					1
2
3
4
				
						kbest = SelectKBest(score_func=chi2, k=10)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_selected = kbest.fit_transform(X_scaled, y)
					
				
			
		



6. Dividiendo el Conjunto de Datos




		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)
					
				
			
		





Construyendo y Entrenando el Modelo KNN

Con los datos preprocesados y divididos, es hora de construir el clasificador KNN.

1. Inicializando y Entrenando el Modelo




		
		
			
			
Java
			
			knn_classifier = KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(X_train, y_train)
			
				
					
				
					1
2
				
						knn_classifier = KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(X_train, y_train)
					
				
			
		



2. Evaluando el Rendimiento del Modelo




		
		
			
			
Java
			
			y_pred = knn_classifier.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")
			
				
					
				
					1
2
3
				
						y_pred = knn_classifier.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")
					
				
			
		


Salida:




		
		
			
			
Java
			
			Model Accuracy: 0.80
			
				
					
				
					1
				
						Model Accuracy: 0.80
					
				
			
		





Visualizando Fronteras de Decisión

La visualización ayuda a entender cómo el modelo KNN separa diferentes clases basándose en las características seleccionadas.

1. Seleccionando Dos Características para la Visualización
Como las fronteras de decisión son más fáciles de visualizar en dos dimensiones, limitamos nuestra selección de características a las dos principales.




		
		
			
			
Java
			
			kbest = SelectKBest(score_func=chi2, k=2)
X_selected = kbest.fit_transform(X_scaled, y)
			
				
					
				
					1
2
				
						kbest = SelectKBest(score_func=chi2, k=2)
X_selected = kbest.fit_transform(X_scaled, y)
					
				
			
		



2. Dividiendo el Conjunto de Datos Nuevamente




		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)
					
				
			
		



3. Escalado de Características




		
		
			
			
Java
			
			scaler = StandardScaler(with_mean=False)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
			
				
					
				
					1
2
3
				
						scaler = StandardScaler(with_mean=False)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
					
				
			
		



4. Reentrenando el Modelo




		
		
			
			
Java
			
			knn_classifier.fit(X_train, y_train)
			
				
					
				
					1
				
						knn_classifier.fit(X_train, y_train)
					
				
			
		



5. Graficando Regiones de Decisión




		
		
			
			
Java
			
			plt.figure(figsize=(10,6))
plot_decision_regions(X_train, y_train, clf=knn_classifier, legend=2)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KNN Decision Boundary with k=3')
plt.show()
			
				
					
				
					1
2
3
4
5
6
				
						plt.figure(figsize=(10,6))
plot_decision_regions(X_train, y_train, clf=knn_classifier, legend=2)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KNN Decision Boundary with k=3')
plt.show()
					
				
			
		


Salida:


Nota: Reemplaza el enlace de la imagen con el gráfico real generado desde tu entorno.



Interpretando la Visualización

El gráfico de la frontera de decisión ilustra cómo el clasificador KNN diferencia entre clases basándose en las dos características seleccionadas. Cada región representa el área donde el modelo predice una clase particular. Los puntos de datos cerca de la frontera indican instancias donde las predicciones del modelo son más sensibles a cambios en los valores de las características.

Insights Clave:

    Forma de la Frontera: Las fronteras de KNN pueden ser no lineales y sensibles al valor de K.
    Superposición de Clases: Áreas donde las clases se superponen pueden llevar a malas clasificaciones.
    Influencia de K: Un K más pequeño conduce a fronteras más flexibles, mientras que un K más grande las suaviza.




Conclusión

Visualizar el algoritmo K-Nearest Neighbors proporciona insights invaluables sobre su proceso de toma de decisiones. Al restringir el espacio de características a dos dimensiones, puedes interpretar efectivamente cómo el modelo distingue entre clases. Aunque la visualización es una herramienta poderosa, es esencial complementarla con métricas robustas de evaluación del modelo como precisión, precisión y recall para asegurar una comprensión y evaluación de rendimiento completa.



Recursos Adicionales

    Conjunto de Datos Weather Australia de Kaggle: Enlace
    Documentación de Scikit-learn: Clasificador KNN
    Librería mlxtend: Graficando Regiones de Decisión
    Python Data Science Handbook de Jake VanderPlas: Enlace




Meta Descripción:
Desbloquea el poder de la visualización de K-Nearest Neighbors (KNN) en Python. Esta guía completa abarca el preprocesamiento de datos, entrenamiento de modelos y la trazabilidad de fronteras de decisión utilizando bibliotecas como scikit-learn y mlxtend.

Palabras Clave:
visualización KNN, K-Nearest Neighbors Python, gráfico de frontera de decisión, visualización de aprendizaje automático, scikit-learn KNN, mlxtend graficar regiones de decisión, preprocesamiento de datos en Python, selección de características KNN, exactitud del modelo KNN