**Translation:**

पायथन में K-Nearest Neighbors (KNN) विज़ुअलाइज़ेशन में महारत हासिल करना: एक व्यापक गाइड

परिचय

मशीन लर्निंग के क्षेत्र में, K-Nearest Neighbors (KNN) अल्गोरिदम अपनी सरलता और वर्गीकरण कार्यों में प्रभावशीलता के लिए प्रमुखता प्राप्त करता है। हालांकि, KNN के निर्णय सीमाओं को समझना और व्याख्या करना चुनौतीपूर्ण हो सकता है, खासकर जब उच्च-आयामी डेटा से निपटने की बात आती है। यही वह जगह है जहाँ विज़ुअलाइज़ेशन एक शक्तिशाली उपकरण बन जाता है। इस व्यापक गाइड में, हम पायथन का उपयोग करके KNN विज़ुअलाइज़ेशन की जटिलताओं में गहराई से उतरेंगे, mlxtend और matplotlib जैसे पैकेजों का लाभ उठाते हुए। इस लेख के अंत तक, आप अपने KNN मॉडलों के सूचनात्मक दृश्य प्रतिनिधित्व बनाने के ज्ञान से लैस हो जाएंगे।

सामग्री तालिका

KNN को समझना और इसकी विज़ुअलाइज़ेशन
अपने पायथन वातावरण की सेटअप
डेटा प्रीप्रोसेसिंग: अपना डेटा सेट तैयार करना
KNN मॉडल का निर्माण और प्रशिक्षण
नियंत्रण सीमाओं का विज़ुअलाइज़ेशन
विज़ुअलाइज़ेशन की व्याख्या
निष्कर्ष
अतिरिक्त संसाधन

K-Nearest Neighbors (KNN) को समझना और इसकी विज़ुअलाइज़ेशन

K-Nearest Neighbors (KNN) क्या है?

KNN एक नॉन-पैरामीट्रिक, इंस्टेंस-आधारित लर्निंग अल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन कार्यों के लिए किया जाता है। यह उस सिद्धांत पर कार्य करता है कि समान डेटा बिंदु फीचर स्पेस में एक-दूसरे के करीब होने की संभावना रखते हैं। वर्गीकरण के लिए, KNN अपने K सबसे निकटतम पड़ोसियों में सबसे सामान्य वर्ग को असाइन करता है।

KNN को विज़ुअलाइज़ क्यों करें?

विज़ुअलाइज़ेशन में सहायता करता है:

मॉडल के व्यवहार की व्याख्या: समझें कि KNN फीचर स्पेस के आधार पर कैसे निर्णय लेता है।
ओवरफिटिंग या अंडरफिटिंग की पहचान: दृश्य पैटर्न यह प्रकट कर सकते हैं कि क्या मॉडल अच्छी तरह से सामान्यीकृत करता है।
फीचर के प्रभाव की तुलना: देखें कि कौन से फीचर निर्णय सीमाओं में सबसे अधिक योगदान करते हैं।

अपने पायथन वातावरण की सेटअप

KNN विज़ुअलाइज़ेशन में गहराई से उतरने से पहले, सुनिश्चित करें कि आपका पायथन वातावरण आवश्यक पैकेजों के साथ सेट अप है।

आवश्यक पैकेज:

pandas: डेटा मैनिपुलेशन और विश्लेषण।
numpy: संख्यात्मक कंप्यूटिंग।
scikit-learn: मशीन लर्निंग अल्गोरिदम और टूल्स।
mlxtend: मशीन लर्निंग के लिए एक्सटेंशन पैकेज।
matplotlib: प्लॉटिंग और विज़ुअलाइज़ेशन।

इंस्टॉलेशन कमांड:

pip install pandas numpy scikit-learn mlxtend matplotlib

1	pip install pandas numpy scikit-learn mlxtend matplotlib

डेटा प्रीप्रोसेसिंग: अपना डेटा सेट तैयार करना

एक अच्छी तरह से तैयार डेटा सेट एक प्रभावी KNN मॉडल के निर्माण के लिए महत्वपूर्ण है। इस उदाहरण के लिए हम Weather Australia Dataset का उपयोग करेंगे।

1. लाइब्रेरी इम्पोर्ट करना और डेटा लोड करना

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt

# Load dataset
data = pd.read_csv('weatherAUS.csv')

import pandas as pd

import numpy as np

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

from mlxtend.plotting import plot_decision_regions

import matplotlib.pyplot as plt

# Load dataset

data = pd.read_csv('weatherAUS.csv')

2. डेटा का अन्वेषण करना

data.tail()

1	data.tail()

Output:

Date Location  MinTemp  MaxTemp  Rainfall  Evaporation  ... Humidity3pm  Pressure9am  ...
142188  2017-06-20    Uluru      3.5     21.8       0.0          NaN  ...        27.0       1024.7  ...
...

Date Location MinTemp MaxTemp Rainfall Evaporation ... Humidity3pm Pressure9am ...

142188 2017-06-20 Uluru 3.5 21.8 0.0 NaN ... 27.0 1024.7 ...

...

3. लापता डेटा को संभालना

संख्यात्मक फीचर्स:

numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns
imp_mean = SimpleImputer(strategy='mean')
data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])

numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns

imp_mean = SimpleImputer(strategy='mean')

data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])

श्रेणीकृत फीचर्स:

string_cols = data.select_dtypes(include=['object']).columns
imp_freq = SimpleImputer(strategy='most_frequent')
data[string_cols] = imp_freq.fit_transform(data[string_cols])

string_cols = data.select_dtypes(include=['object']).columns

imp_freq = SimpleImputer(strategy='most_frequent')

data[string_cols] = imp_freq.fit_transform(data[string_cols])

4. श्रेणीकृत वेरिएबल्स को एन्कोड करना

def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series)

# Encode target variable
data['RainTomorrow'] = LabelEncoderMethod(data['RainTomorrow'])

# One-Hot Encode categorical features
X = data.drop(['RainTomorrow', 'RISK_MM'], axis=1)
X = pd.get_dummies(X, drop_first=True)
y = data['RainTomorrow']

def LabelEncoderMethod(series):

le = LabelEncoder()

return le.fit_transform(series)

# Encode target variable

data['RainTomorrow'] = LabelEncoderMethod(data['RainTomorrow'])

# One-Hot Encode categorical features

X = data.drop(['RainTomorrow', 'RISK_MM'], axis=1)

X = pd.get_dummies(X, drop_first=True)

y = data['RainTomorrow']

5. फीचर चयन

kbest = SelectKBest(score_func=chi2, k=10)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_selected = kbest.fit_transform(X_scaled, y)

kbest = SelectKBest(score_func=chi2, k=10)

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

X_selected = kbest.fit_transform(X_scaled, y)

6. डेटा सेट को विभाजित करना

X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)

1	X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)

KNN मॉडल का निर्माण और प्रशिक्षण

डेटा को पूर्वप्रक्रित और विभाजित करने के बाद, अब KNN क्लासिफायर का निर्माण करने का समय है।

1. मॉडल को प्रारंभ करना और प्रशिक्षण देना

knn_classifier = KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(X_train, y_train)

1 2	knn_classifier = KNeighborsClassifier(n_neighbors=3) knn_classifier.fit(X_train, y_train)

2. मॉडल प्रदर्शन का मूल्यांकन करना

y_pred = knn_classifier.predict(X_test)
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")

y_pred = knn_classifier.predict(X_test)

accuracy = accuracy_score(y_pred, y_test)

print(f"Model Accuracy: {accuracy:.2f}")

Output:

Model Accuracy: 0.80

1	Model Accuracy: 0.80

नियंत्रण सीमाओं का विज़ुअलाइज़ेशन

विज़ुअलाइज़ेशन यह समझने में मदद करता है कि KNN मॉडल चयनित फीचर्स के आधार पर विभिन्न वर्गों को कैसे पृथक करता है।

1. विज़ुअलाइज़ेशन के लिए दो फीचर्स का चयन करना

चूंकि निर्णय सीमाओं को दो आयामों में विज़ुअलाइज़ करना आसान होता है, हम अपनी फीचर चयन को शीर्ष दो फीचर्स तक सीमित रखते हैं।

kbest = SelectKBest(score_func=chi2, k=2)
X_selected = kbest.fit_transform(X_scaled, y)

1 2	kbest = SelectKBest(score_func=chi2, k=2) X_selected = kbest.fit_transform(X_scaled, y)

2. डेटा सेट को फिर से विभाजित करना

X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)

1	X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.20, random_state=1)

3. फीचर स्केलिंग

scaler = StandardScaler(with_mean=False)
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

scaler = StandardScaler(with_mean=False)

X_train = scaler.fit_transform(X_train)

X_test = scaler.transform(X_test)

4. मॉडल को फिर से प्रशिक्षण देना

knn_classifier.fit(X_train, y_train)

1	knn_classifier.fit(X_train, y_train)

5. निर्णय क्षेत्रों को प्लॉट करना

plt.figure(figsize=(10,6))
plot_decision_regions(X_train, y_train, clf=knn_classifier, legend=2)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KNN Decision Boundary with k=3')
plt.show()

plt.figure(figsize=(10,6))

plot_decision_regions(X_train, y_train, clf=knn_classifier, legend=2)

plt.xlabel('Feature 1')

plt.ylabel('Feature 2')

plt.title('KNN Decision Boundary with k=3')

plt.show()

Output:

KNN Decision Boundary

नोट: अपने वातावरण से उत्पन्न वास्तविक प्लॉट के साथ इमेज लिंक को बदलें।

विज़ुअलाइज़ेशन की व्याख्या

निर्णय सीमा प्लॉट इस बात का प्रदर्शन करता है कि KNN क्लासिफायर दो चयनित फीचर्स के आधार पर वर्गों के बीच अंतर कैसे करता है। प्रत्येक क्षेत्र उस क्षेत्र का प्रतिनिधित्व करता है जहाँ मॉडल एक विशेष वर्ग की भविष्यवाणी करता है। सीमा के पास डेटा बिंदु उन उदाहरणों को दर्शाते हैं जहाँ मॉडल की भविष्यवाणियाँ फीचर मानों में परिवर्तनों के प्रति अधिक संवेदनशील हैं।

मुख्य अंतर्दृष्टियाँ:

सीमा का आकार: KNN सीमाएँ गैर-रेखीय हो सकती हैं और K मान के मान पर संवेदनशील होती हैं।
वर्गों का ओवरलैप: उन क्षेत्रों जहाँ वर्ग ओवरलैप करते हैं, गलत वर्गीकरण का कारण बन सकते हैं।
K का प्रभाव: छोटा K लचीली सीमाओं की ओर ले जाता है, जबकि बड़ा K उन्हें स्मूद कर देता है।

निष्कर्ष

K-Nearest Neighbors अल्गोरिदम की विज़ुअलाइज़ेशन इसके निर्णय लेने की प्रक्रिया में अनमोल अंतर्दृष्टियाँ प्रदान करती है। फीचर स्पेस को दो आयामों तक सीमित करके, आप प्रभावी रूप से समझ सकते हैं कि मॉडल वर्गों के बीच अंतर कैसे करता है। जबकि विज़ुअलाइज़ेशन एक शक्तिशाली उपकरण है, यह महत्वपूर्ण है कि इसे सटीकता, प्रेसिशन और रिकॉल जैसे मजबूत मॉडल मूल्यांकन मेट्रिक्स के साथ पूरा किया जाए ताकि व्यापक समझ और प्रदर्शन मूल्यांकन सुनिश्चित किया जा सके।

अतिरिक्त संसाधन

Kaggle Weather Australia Dataset: लिंक
Scikit-learn Documentation: KNN क्लासिफायर
mlxtend Library: Plotting Decision Regions
Python Data Science Handbook by Jake VanderPlas: लिंक

Meta Description: पायथन में K-Nearest Neighbors (KNN) विज़ुअलाइज़ेशन की शक्ति को अनलॉक करें। यह व्यापक गाइड डेटा प्रीप्रोसेसिंग, मॉडल प्रशिक्षण, और scikit-learn और mlxtend जैसी लाइब्रेरी का उपयोग करके निर्णय सीमा प्लॉटिंग को कवर करती है।

Keywords: KNN विज़ुअलाइज़ेशन, K-Nearest Neighbors पायथन, निर्णय सीमा प्लॉट, मशीन लर्निंग विज़ुअलाइज़ेशन, scikit-learn KNN, mlxtend प्लॉट डिसीजन रीजन, पायथन डेटा प्रीप्रोसेसिंग, फीचर चयन KNN, KNN मॉडल सटीकता