S40L04 – Representaciones de datos usando números

html
Guía Integral de Formatos de Datos y Representación para Aprendizaje Automático y Aprendizaje Profundo

Tabla de Contenidos

Introducción a los Formatos de Datos
Datos Textuales y Procesamiento de Lenguaje Natural (NLP)
Datos Categóricos y Numéricos en Aprendizaje Automático
Manejo de Datos de Imágenes para Aprendizaje Automático
Representación de Datos de Audio
Datos de Grafos y Sus Aplicaciones
Aprendizaje Profundo: Expandiendo las Capacidades de Manejo de Datos
Aplicaciones Prácticas y Ejemplos
Conclusión




Introducción a los Formatos de Datos

Los datos son la columna vertebral de cualquier proyecto de Aprendizaje Automático o Aprendizaje Profundo. La diversidad en los formatos de datos—que van desde texto y números hasta imágenes y audio—requiere enfoques personalizados para su procesamiento y representación. Una representación efectiva de los datos no solo mejora la precisión del modelo, sino que también optimiza la eficiencia computacional.

Datos Textuales y Procesamiento de Lenguaje Natural (NLP)

Técnicas de Vectorización

Los datos textuales son inherentemente no estructurados, lo que hace esencial convertirlos a un formato numérico que los modelos de aprendizaje automático puedan interpretar. Vectorización es un proceso fundamental en NLP que transforma el texto en vectores de números. Las técnicas comunes de vectorización incluyen:


Bolsa de Palabras (BoW): Representa el texto por la frecuencia de palabras.
Frecuencia de Términos-Frecuencia de Documento Inversa (TF-IDF): Considera la importancia de las palabras en un documento en relación con un corpus.
Embeddings de Palabras (p.ej., Word2Vec, GloVe): Captura relaciones contextuales entre palabras en un espacio vectorial continuo.


Preprocesamiento de Datos Textuales

Antes de la vectorización, los datos textuales a menudo pasan por pasos de preprocesamiento como:


Tokenización: Dividir el texto en tokens individuales o palabras.
Eliminación de Stop Words: Eliminar palabras comunes que pueden no contribuir con un significado significativo.
Stemming y Lemmatización: Reducir las palabras a su forma base o raíz.


Al implementar estos pasos de preprocesamiento, se mejora la calidad y relevancia de los datos textuales, lo que conduce a modelos de NLP más efectivos.

Datos Categóricos y Numéricos en Aprendizaje Automático

Codificación de Variables Categóricas

Los modelos de Aprendizaje Automático requieren entradas numéricas, lo que hace necesaria la transformación de variables categóricas. Las técnicas comunes de codificación incluyen:


Codificación de Etiquetas: Asigna un entero único a cada categoría.
Codificación One-Hot: Crea columnas binarias para cada categoría, indicando la presencia o ausencia de una característica.


Escalado de Características Numéricas

Escalar los datos numéricos asegura que las características contribuyan por igual al resultado, especialmente en algoritmos sensibles a las magnitudes de las características. Los métodos comunes de escalado son:


Escalado Min-Max: Escala los datos a un rango entre 0 y 1.
Estandarización (Normalización Z-score): Centra los datos alrededor de la media con una desviación estándar unitaria.


Ejemplo:





		
		
			
			
Java
			
			from sklearn.preprocessing import MinMaxScaler

# Sample numerical data
import pandas as pd
import cv2

df = pd.DataFrame({
    'Publisher': ['Oxford', 'Morford University Press', 'HarperFlamingo', 'Carlo', 'HarperPerennial'],
    'Year': [2002, 1991, 2001, 1991, 1999]
})

# One-Hot Encoding for 'Publisher'
df_encoded = pd.get_dummies(df, columns=['Publisher'])

# Min-Max Scaling for 'Year'
scaler = MinMaxScaler()
df_encoded['Year_scaled'] = scaler.fit_transform(df_encoded[['Year']])

print(df_encoded)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
				
						from sklearn.preprocessing import MinMaxScaler
 
# Sample numerical data
import pandas as pd
import cv2
 
df = pd.DataFrame({
    'Publisher': ['Oxford', 'Morford University Press', 'HarperFlamingo', 'Carlo', 'HarperPerennial'],
    'Year': [2002, 1991, 2001, 1991, 1999]
})
 
# One-Hot Encoding for 'Publisher'
df_encoded = pd.get_dummies(df, columns=['Publisher'])
 
# Min-Max Scaling for 'Year'
scaler = MinMaxScaler()
df_encoded['Year_scaled'] = scaler.fit_transform(df_encoded[['Year']])
 
print(df_encoded)
					
				
			
		







		
		
			
			
Java
			
			   Year  Publisher_Carlo  Publisher_HarperFlamingo  Publisher_HarperPerennial   
0  2002                0                         0                           0   
1  1991                0                         0                           1   
2  2001                0                         1                           0   
3  1991                1                         0                           0   
4  1999                0                         0                           0   

   Publisher_Morford University Press  Publisher_Oxford  Year_scaled  
0                                  0                  1          1.0  
1                                  1                  0          0.0  
2                                  0                  0          0.75  
3                                  0                  0          0.0  
4                                  0                  0          0.5  
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						   Year  Publisher_Carlo  Publisher_HarperFlamingo  Publisher_HarperPerennial   
0  2002                0                         0                           0   
1  1991                0                         0                           1   
2  2001                0                         1                           0   
3  1991                1                         0                           0   
4  1999                0                         0                           0   
 
   Publisher_Morford University Press  Publisher_Oxford  Year_scaled  
0                                  0                  1          1.0  
1                                  1                  0          0.0  
2                                  0                  0          0.75  
3                                  0                  0          0.0  
4                                  0                  0          0.5  
					
				
			
		



Manejo de Datos de Imágenes para Aprendizaje Automático

Las imágenes son ricas en información y presentan desafíos únicos en la representación de datos. Convertir imágenes a un formato numérico implica varios pasos:

Conversión a Escala de Grises y Normalización

Convertir imágenes coloreadas a escala de grises simplifica los datos al reducirlos a un solo canal de intensidad. Normalizar los valores de píxeles los escala a un rango entre 0 y 1, lo cual es beneficioso para el entrenamiento de redes neuronales.

Ejemplo:





		
		
			
			
Java
			
			import cv2
import pandas as pd

# Load and convert image to grayscale
im = cv2.imread("Picture1l.png")
gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

# Normalize pixel values
df = pd.DataFrame(gray / 255)

# Round the values for better readability
df_rounded = df.round(2)
print(df_rounded)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						import cv2
import pandas as pd
 
# Load and convert image to grayscale
im = cv2.imread("Picture1l.png")
gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
 
# Normalize pixel values
df = pd.DataFrame(gray / 255)
 
# Round the values for better readability
df_rounded = df.round(2)
print(df_rounded)
					
				
			
		







		
		
			
			
Java
			
			      0     1     2     3   ...   123   124   125   126   127
0  1.00  1.00  1.00  1.00  ...  0.58  0.38  0.61  0.62  0.62
1  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
2  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
3  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
4  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
			
				
					
				
					1
2
3
4
5
6
				
						      0     1     2     3   ...   123   124   125   126   127
0  1.00  1.00  1.00  1.00  ...  0.58  0.38  0.61  0.62  0.62
1  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
2  1.00  1.00  1.00  1.00  ...  0.38  0.37  0.37  0.37  0.37
3  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
4  1.00  1.00  1.00  1.00  ...  0.37  0.37  0.37  0.37  0.37
					
				
			
		



Representación en Matriz

Las imágenes pueden ser representadas como matrices 2D o 3D donde cada píxel corresponde a un valor numérico. Esta matriz sirve como entrada para varios modelos de aprendizaje automático, incluyendo Redes Neuronales Convolucionales (CNNs).

Representación de Datos de Audio

Los datos de audio, al igual que las imágenes, requieren ser convertidos a formatos numéricos para el procesamiento de ML. Las técnicas comunes incluyen:


Representación de Forma de Onda: Uso directo de las amplitudes de la señal de audio.
Espectrogramas: Representaciones visuales del espectro de frecuencias.
MFCCs (Coeficientes Cepstrales de Frecuencia Mel): Capturan el espectro de potencia a corto plazo del sonido.


Ejemplo de Conversión Hexadecimal:

Los archivos de audio pueden ser convertidos programáticamente a datos numéricos usando bibliotecas como wave y numpy. Aquí hay un ejemplo simplificado:





		
		
			
			
Java
			
			import wave
import numpy as np

# Open the audio file
audio = wave.open('flask_course.wav', 'rb')
frames = audio.readframes(-1)
sound_info = np.frombuffer(frames, dtype=np.int16)
print(sound_info)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						import wave
import numpy as np
 
# Open the audio file
audio = wave.open('flask_course.wav', 'rb')
frames = audio.readframes(-1)
sound_info = np.frombuffer(frames, dtype=np.int16)
print(sound_info)
					
				
			
		



Esto convierte la señal de audio en un arreglo de numpy de valores numéricos que representan la forma de onda.

Datos de Grafos y Sus Aplicaciones

Los grafos son estructuras de datos versátiles usadas para representar relaciones entre entidades. Las aplicaciones incluyen:


Redes Sociales: Representación de usuarios y sus conexiones.
Sistemas de Recomendación: Modelado de ítems y preferencias de usuarios.
Grafos de Conocimiento: Conexión de datos de diversas fuentes para proporcionar información contextual.


Los grafos suelen ser representados usando matrices de adyacencia o listas de aristas, las cuales pueden ser ingresadas en redes neuronales especializadas como las Redes Neuronales de Grafos (GNNs).

Aprendizaje Profundo: Expandiendo las Capacidades de Manejo de Datos

Mientras que los modelos tradicionales de Aprendizaje Automático sobresalen con datos estructurados y tabulares, el Aprendizaje Profundo destaca en el manejo de formatos de datos complejos y no estructurados como imágenes, audio y texto.

Ventajas del Aprendizaje Profundo


Extracción Automática de Características: Los modelos de DL, especialmente las CNNs y RNNs, pueden extraer automáticamente características relevantes de los datos brutos.
Escalabilidad: Los modelos de DL pueden manejar conjuntos de datos grandes y de alta dimensión de manera efectiva.
Versatilidad: Capaces de procesar varios tipos de datos dentro de un solo marco.


Redes Neuronales y Representaciones en Matriz

El Aprendizaje Profundo depende en gran medida de operaciones con matrices. Los datos representados como matrices pueden ser procesados eficientemente por redes neuronales, permitiendo tareas como reconocimiento de imágenes, comprensión del lenguaje natural y reconocimiento de voz.

Ejemplo de una Entrada de Red Neuronal:

Usando el ejemplo anterior de la imagen en escala de grises, la matriz 2D de valores de píxeles puede ser alimentada a una red neuronal para tareas como clasificación o detección de objetos.





		
		
			
			
Java
			
			import tensorflow as tf
from tensorflow.keras import layers, models

# Define a simple CNN model
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(128, 128, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

print(model.summary())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						import tensorflow as tf
from tensorflow.keras import layers, models
 
# Define a simple CNN model
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(128, 128, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])
 
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
 
print(model.summary())
					
				
			
		



Aplicaciones Prácticas y Ejemplos

Sistemas de Recomendación

Usando datos tabulares, los modelos de ML pueden predecir las preferencias de los usuarios y recomendar productos o servicios. Por ejemplo, el conjunto de datos de Retailer mencionado implica preprocesar las transacciones de los minoristas para sugerir productos relevantes a los usuarios.

Reconocimiento de Dígitos Manuscritos

Apalancando datos de imágenes y DL, los modelos pueden reconocer y categorizar con precisión dígitos manuscritos, incluso con variaciones en los estilos de escritura. El conocido conjunto de datos MNIST ejemplifica esta aplicación, donde las imágenes de números escritos a mano son convertidas en matrices numéricas para el entrenamiento del modelo.

Conclusión

El preprocesamiento y la representación de datos son fundamentales para el éxito de los modelos de Aprendizaje Automático y Aprendizaje Profundo. Al entender y gestionar efectivamente diversos formatos de datos—desde texto y datos numéricos hasta imágenes y audio—puedes aprovechar al máximo el potencial de tus modelos. El Aprendizaje Profundo, con sus capacidades avanzadas, expande aún más los horizontes, permitiendo el manejo de datos complejos y no estructurados con una eficiencia sin precedentes. A medida que los datos continúan creciendo en diversidad y volumen, dominar estas técnicas será indispensable para los científicos de datos y los profesionales de aprendizaje automático.



Palabras clave: Formatos de Datos, Representación de Datos, Aprendizaje Automático, Aprendizaje Profundo, NLP, Vectorización, Codificación de Datos Categóricos, Escalado de Datos Numéricos, Procesamiento de Imágenes, Datos de Audio, Redes Neuronales de Grafos, Sistemas de Recomendación, Reconocimiento de Dígitos Manuscritos, Preprocesamiento de Datos.