S40L04 – संख्याओं का उपयोग करके डेटा का प्रतिनिधित्व

html
मशीन लर्निंग और डीप लर्निंग के लिए डेटा प्रारूप और प्रतिनिधित्व का व्यापक मार्गदर्शिका

सामग्री तालिका

डेटा प्रारूप का परिचय
ग्रंथात्मक डेटा और नेचुरल लैंग्वेज प्रोसेसिंग (NLP)
मशीन लर्निंग में वर्गीकृत और संख्यात्मक डेटा
मशीन लर्निंग के लिए छवि डेटा को संभालना
ऑडियो डेटा प्रतिनिधित्व
ग्राफ डेटा और इसके अनुप्रयोग
डीप लर्निंग: डेटा हैंडलिंग क्षमताओं का विस्तार
व्यावहारिक अनुप्रयोग और उदाहरण
निष्कर्ष




डेटा प्रारूप का परिचय

डेटा किसी भी मशीन लर्निंग या डीप लर्निंग परियोजना की रीढ़ है। डेटा प्रारूपों में विविधता—पाठ और संख्याओं से लेकर छवियों और ऑडियो तक—प्रक्रियाकरण और प्रतिनिधित्व के लिए अनुकूलित दृष्टिकोणों की आवश्यकता को दर्शाती है। प्रभावी डेटा प्रतिनिधित्व न केवल मॉडल की सटीकता बढ़ाता है बल्कि संगणनात्मक दक्षता को भी अनुकूलित करता है।

ग्रंथात्मक डेटा और नेचुरल लैंग्वेज प्रोसेसिंग (NLP)

वेक्टराइजेशन तकनीकें

ग्रंथात्मक डेटा स्वाभाविक रूप से असंरचित होता है, जिससे इसे एक संख्यात्मक प्रारूप में परिवर्तित करना आवश्यक हो जाता है जिसे मशीन लर्निंग मॉडल समझ सकें। वेक्टराइजेशन NLP में एक महत्वपूर्ण प्रक्रिया है जो पाठ को संख्याओं के वेक्टर में बदलती है। सामान्य वेक्टराइजेशन तकनीकों में शामिल हैं:


बैग ऑफ वर्ड्स (BoW): शब्दों की आवृत्ति द्वारा पाठ का प्रतिनिधित्व करता है।
टर्म फ्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ्रीक्वेंसी (TF-IDF): एक कॉर्पस के सापेक्ष एक दस्तावेज़ में शब्दों के महत्व पर विचार करता है।
वर्ड एम्बेडिंग्स (जैसे, Word2Vec, GloVe): शब्दों के बीच संदर्भ संबंधों को एक सतत वेक्टर अंतरिक्ष में पकड़ता है।


पाठ डेटा का पूर्वप्रसंस्करण

वेक्टराइजेशन से पहले, पाठ डेटा अक्सर निम्नलिखित पूर्वप्रसंस्करण चरणों से गुजरता है:


टोकनाइज़ेशन: पाठ को व्यक्तिगत टोकन या शब्दों में विभाजित करना।
स्टॉप वर्ड्स को हटाना: सामान्य शब्दों को समाप्त करना जो महत्वपूर्ण अर्थ में योगदान नहीं कर सकते।
स्टेमिंग और लेमेटाइजेशन: शब्दों को उनके आधार या मूल रूप में कम करना।


इन पूर्वप्रसंस्करण चरणों को लागू करके, ग्रंथात्मक डेटा की गुणवत्ता और प्रासंगिकता में सुधार होता है, जिससे अधिक प्रभावी NLP मॉडल प्राप्त होते हैं।

मशीन लर्निंग में वर्गीकृत और संख्यात्मक डेटा

श्रेणीकृत चर का एनकोडिंग

मशीन लर्निंग मॉडल को संख्यात्मक इनपुट की आवश्यकता होती है, जिससे श्रेणीकृत चर का रूपांतरण आवश्यक हो जाता है। सामान्य एनकोडिंग तकनीकों में शामिल हैं:


लेबल एनकोडिंग: प्रत्येक श्रेणी को एक अद्वितीय पूर्णांक सौंपता है।
वन-हॉट एनकोडिंग: प्रत्येक श्रेणी के लिए बाइनरी कॉलम बनाता है, जो एक फीचर की उपस्थिति या अनुपस्थिति को इंगित करता है।


संख्यात्मक विशेषताओं का स्केलिंग

संख्यात्मक डेटा को स्केल करना यह सुनिश्चित करता है कि विशेषताएँ परिणाम में समान रूप से योगदान दें, खासकर उन एल्गोरिदम में जो फीचर के परिमाण के प्रति संवेदनशील होते हैं। सामान्य स्केलिंग विधियाँ हैं:


मिन-मैक्स स्केलिंग: डेटा को 0 और 1 के बीच के रेंज में स्केल करता है।
स्टैंडर्डाइजेशन (Z-स्कोर नॉर्मलाइजेशन): डेटा को माध्य के चारों ओर केंद्रित करता है और इसकी एकाइ मानक विचलन के साथ।


उदाहरण:





		
		
			
			
Java
			
			from sklearn.preprocessing import MinMaxScaler

# Sample numerical data
import pandas as pd
import cv2

df = pd.DataFrame({
    'Publisher': ['Oxford', 'Morford University Press', 'HarperFlamingo', 'Carlo', 'HarperPerennial'],
    'Year': [2002, 1991, 2001, 1991, 1999]
})

# One-Hot Encoding for 'Publisher'
df_encoded = pd.get_dummies(df, columns=['Publisher'])

# Min-Max Scaling for 'Year'
scaler = MinMaxScaler()
df_encoded['Year_scaled'] = scaler.fit_transform(df_encoded[['Year']])

print(df_encoded)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
				
						from sklearn.preprocessing import MinMaxScaler
 
# Sample numerical data
import pandas as pd
import cv2
 
df = pd.DataFrame({
    'Publisher': ['Oxford', 'Morford University Press', 'HarperFlamingo', 'Carlo', 'HarperPerennial'],
    'Year': [2002, 1991, 2001, 1991, 1999]
})
 
# One-Hot Encoding for 'Publisher'
df_encoded = pd.get_dummies(df, columns=['Publisher'])
 
# Min-Max Scaling for 'Year'
scaler = MinMaxScaler()
df_encoded['Year_scaled'] = scaler.fit_transform(df_encoded[['Year']])
 
print(df_encoded)
					
				
			
		







		
		
			
			
Java
			
			   Year  Publisher_Carlo  Publisher_HarperFlamingo  Publisher_HarperPerennial   
0  2002                0                         0                           0   
1  1991                0                         0                           1   
2  2001                0                         1                           0   
3  1991                1                         0                           0   
4  1999                0                         0                           0   

   Publisher_Morford University Press  Publisher_Oxford  Year_scaled  
0                                  0                  1          1.0  
1                                  1                  0          0.0  
2                                  0                  0          0.75  
3                                  0                  0          0.0  
4                                  0                  0          0.5  
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						   Year  Publisher_Carlo  Publisher_HarperFlamingo  Publisher_HarperPerennial   
0  2002                0                         0                           0   
1  1991                0                         0                           1   
2  2001                0                         1                           0   
3  1991                1                         0                           0   
4  1999                0                         0                           0   
 
   Publisher_Morford University Press  Publisher_Oxford  Year_scaled  
0                                  0                  1          1.0  
1                                  1                  0          0.0  
2                                  0                  0          0.75  
3                                  0                  0          0.0  
4                                  0                  0          0.5  
					
				
			
		



मशीन लर्निंग के लिए छवि डेटा को संभालना

छवियाँ जानकारी में समृद्ध होती हैं और डेटा प्रतिनिधित्व में अनूठी चुनौतियाँ प्रस्तुत करती हैं। छवियों को एक संख्यात्मक प्रारूप में बदलने में कई चरण शामिल होते हैं:

ग्रेस्केल रूपांतरण और सामान्यीकरण

रंगीन छवियों को ग्रेस्केल में बदलना डेटा को एकल तीव्रता चैनल में सरल बनाता है। पिक्सेल मानों को सामान्यीकृत करना उन्हें 0 और 1 के बीच के रेंज में स्केल करता है, जो न्यूरल नेटवर्क प्रशिक्षण के लिए फायदेमंद होता है।

उदाहरण:





		
		
			
			
Java
			
			import cv2
import pandas as pd

# Load and convert image to grayscale
im = cv2.imread("Picture1l.png")
gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

# Normalize pixel values
df = pd.DataFrame(gray / 255)

# Round the values for better readability
df_rounded = df.round(2)
print(df_rounded)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						import cv2
import pandas as pd
 
# Load and convert image to grayscale
im = cv2.imread("Picture1l.png")
gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
 
# Normalize pixel values
df = pd.DataFrame(gray / 255)
 
# Round the values for better readability
df_rounded = df.round(2)
print(df_rounded)
					
				
			
		







		
		
			
			
Java
			
			      0     1     2     3   ...   123   124   125   126   127
0  1.00  1.00  1.00  1.00  ...  0.58  0.38  0.61  0.62  0.62
1  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
2  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
3  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
4  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
			
				
					
				
					1
2
3
4
5
6
				
						      0     1     2     3   ...   123   124   125   126   127
0  1.00  1.00  1.00  1.00  ...  0.58  0.38  0.61  0.62  0.62
1  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
2  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
3  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
4  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
					
				
			
		



मैट्रिक्स प्रतिनिधित्व

छवियों का प्रतिनिधित्व 2D या 3D मैट्रिक्स के रूप में किया जा सकता है जहां प्रत्येक पिक्सेल का एक संख्यात्मक मान होता है। यह मैट्रिक्स विभिन्न मशीन लर्निंग मॉडलों के लिए इनपुट के रूप में कार्य करता है, जिसमें कन्वोल्यूशनल न्यूरल नेटवर्क (CNNs) शामिल हैं।

ऑडियो डेटा प्रतिनिधित्व

छवियों की तरह, ऑडियो डेटा को भी ML प्रोसेसिंग के लिए संख्यात्मक प्रारूपों में बदलने की आवश्यकता होती है। सामान्य तकनीकों में शामिल हैं:


वेवफॉर्म प्रतिनिधित्व: सीधे ऑडियो सिग्नल की अम्प्लीट्यूड का उपयोग करना।
स्पेक्ट्रोग्राम: आवृत्तियों के स्पेक्ट्रम के दृश्य प्रतिनिधित्व।
MFCCs (मेल-फ्रीक्वेंसी सेप्स्ट्रल कोएफिशिएंट्स): ध्वनि के शॉर्ट-टर्म पॉवर स्पेक्ट्रम को पकड़ना।


हेक्साडेसिमल रूपांतरण उदाहरण:

ऑडियो फाइलों को प्रोग्रामेटिक रूप से संख्यात्मक डेटा में परिवर्तित किया जा सकता है, लाइब्रेरीज़ जैसे wave और numpy का उपयोग करके। यहां एक सरल उदाहरण है:





		
		
			
			
Java
			
			import wave
import numpy as np

# Open the audio file
audio = wave.open('flask_course.wav', 'rb')
frames = audio.readframes(-1)
sound_info = np.frombuffer(frames, dtype=np.int16)
print(sound_info)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						import wave
import numpy as np
 
# Open the audio file
audio = wave.open('flask_course.wav', 'rb')
frames = audio.readframes(-1)
sound_info = np.frombuffer(frames, dtype=np.int16)
print(sound_info)
					
				
			
		



यह ऑडियो सिग्नल को संख्यात्मक मानों के एक numpy ऐरे में बदलता है जो वेवफॉर्म का प्रतिनिधित्व करता है।

ग्राफ डेटा और इसके अनुप्रयोग

ग्राफ डेटा संरचनाएँ बहुमुखी होती हैं जो संस्थाओं के बीच के संबंधों को प्रदर्शित करने के लिए उपयोग की जाती हैं। अनुप्रयोगों में शामिल हैं:


सोशल नेटवर्क: उपयोगकर्ताओं और उनके कनेक्शनों का प्रतिनिधित्व करना।
सिफारिश प्रणाली: आइटम और उपयोगकर्ता प्राथमिकताओं का मॉडलिंग।
ज्ञान ग्राफ्स: विभिन्न स्रोतों से डेटा को जोड़कर संदर्भात्मक जानकारी प्रदान करना।


ग्राफ अक्सर एडजेसेंसी मैट्रिसेस या एज लिस्ट्स का उपयोग करके प्रदर्शित किए जाते हैं, जिन्हें ग्राफ न्यूरल नेटवर्क्स (GNNs) जैसे विशेष न्यूरल नेटवर्क में इनपुट किया जा सकता है।

डीप लर्निंग: डेटा हैंडलिंग क्षमताओं का विस्तार

जहां पारंपरिक मशीन लर्निंग मॉडल संरचित और सारणीबद्ध डेटा के साथ उत्कृष्ट प्रदर्शन करते हैं, वहीं डीप लर्निंग छवियों, ऑडियो और पाठ जैसे जटिल और असंरचित डेटा प्रारूपों को संभालने में उत्कृष्टता प्राप्त करती है।

डीप लर्निंग के लाभ


स्वचालित फीचर एक्सट्रैक्शन: DL मॉडल, विशेष रूप से CNNs और RNNs, कच्चे डेटा से स्वचालित रूप से प्रासंगिक फीचर्स निकाल सकते हैं।
स्केलेबिलिटी: DL मॉडल बड़े और उच्च-आयामी डेटासेट का प्रभावी ढंग से प्रबंधन कर सकते हैं।
कई प्रकार के डेटा: एक ही फ्रेमवर्क के भीतर विभिन्न प्रकार के डेटा को प्रोसेस करने में सक्षम।


न्यूरल नेटवर्क्स और मैट्रिक्स प्रतिनिधित्व

डीप लर्निंग में मैट्रिक्स ऑपरेशन्स का भारी उपयोग होता है। मैट्रिक्स के रूप में प्रस्तुत डेटा को न्यूरल नेटवर्क्स द्वारा कुशलतापूर्वक प्रोसेस किया जा सकता है, जिससे छवि पहचान, नेचुरल लैंग्वेज समझ और स्पीच रिकग्निशन जैसे कार्य संभव होते हैं।

न्यूरल नेटवर्क इनपुट का उदाहरण:

पहले के ग्रेस्केल छवि उदाहरण का उपयोग करते हुए, पिक्सेल मानों का 2D मैट्रिक्स को न्यूरल नेटवर्क में फीड किया जा सकता है ताकि श्रेणीकरण या वस्तु पहचान जैसे कार्य किए जा सकें।





		
		
			
			
Java
			
			import tensorflow as tf
from tensorflow.keras import layers, models

# Define a simple CNN model
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(128, 128, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

print(model.summary())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						import tensorflow as tf
from tensorflow.keras import layers, models
 
# Define a simple CNN model
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(128, 128, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])
 
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
 
print(model.summary())
					
				
			
		



व्यावहारिक अनुप्रयोग और उदाहरण

सिफारिश प्रणाली

सारणीबद्ध डेटा का उपयोग करके, ML मॉडल उपयोगकर्ता की प्राथमिकताओं की भविष्यवाणी कर सकते हैं और उत्पादों या सेवाओं की सिफारिश कर सकते हैं। उदाहरण के लिए, उल्लेखित रिटेलर डेटासेट रिटेलर लेनदेन को पूर्वप्रसंस्करण करके उपयोगकर्ताओं को संबंधित उत्पाद सुझाने में शामिल है।

हस्तलिखित अंक पहचान

छवि डेटा और DL का उपयोग करके, मॉडल हस्तलिखित अंकों को सटीक रूप से पहचान और वर्गीकृत कर सकते हैं, यहां तक कि हस्तलिखन शैलियों में भिन्नताओं के साथ भी। प्रसिद्ध MNIST डेटासेट इस अनुप्रयोग का उदाहरण है, जहां हस्तलिखित नंबरों की छवियों को मॉडल प्रशिक्षण के लिए संख्यात्मक मैट्रिसेस में परिवर्तित किया जाता है।

निष्कर्ष

डेटा पूर्वप्रसंस्करण और प्रतिनिधित्व मशीन लर्निंग और डीप लर्निंग मॉडलों की सफलता के लिए मौलिक हैं। विभिन्न डेटा प्रारूपों—पाठ और संख्यात्मक डेटा से लेकर छवियों और ऑडियो तक—को समझकर और प्रभावी ढंग से प्रबंधित करके, आप अपने मॉडलों की पूरी क्षमता का उपयोग कर सकते हैं। डीप लर्निंग, अपनी उन्नत क्षमताओं के साथ, क्षितिज का विस्तार करता है, जिससे जटिल और असंरचित डेटा को अभूतपूर्व दक्षता के साथ संभालना संभव होता है। जैसे-जैसे डेटा की विविधता और मात्रा बढ़ती जा रही है, इन तकनीकों में महारत हासिल करना डेटा वैज्ञानिकों और मशीन लर्निंग प्रैक्टिशनरों के लिए अनिवार्य हो जाएगा।



कीवर्ड्स: डेटा प्रारूप, डेटा प्रतिनिधित्व, मशीन लर्निंग, डीप लर्निंग, NLP, वेक्टराइजेशन, वर्गीकृत डेटा एनकोडिंग, संख्यात्मक डेटा स्केलिंग, छवि प्रोसेसिंग, ऑडियो डेटा, ग्राफ न्यूरल नेटवर्क्स, सिफारिश प्रणाली, हस्तलिखित अंक पहचान, डेटा पूर्वप्रसंस्करण।