S03L06 – Análisis Univariado usando PDF

html
Análisis Univariado del Conjunto de Datos Iris: Una Guía Exhaustiva para la Selección de Características en Aprendizaje Automático

Publicado el [Fecha]



Introducción

En el ámbito del aprendizaje automático, la selección de características juega un papel fundamental en la construcción de modelos eficientes y precisos. Una técnica fundamental para la selección de características es el Análisis Univariado, que examina cada característica individualmente para determinar su importancia en la predicción de la variable objetivo. Este artículo profundiza en la aplicación del análisis univariado en el conjunto de datos Iris, un conjunto de datos esencial en el campo del aprendizaje automático y las estadísticas.

Al aprovechar las poderosas bibliotecas de Python como Pandas, Seaborn y Matplotlib, exploraremos cómo identificar las características más impactantes para clasificar diferentes especies de flores Iris. Ya seas un entusiasta de los datos o un practicante experimentado, esta guía tiene como objetivo mejorar tu comprensión del análisis univariado y su implementación práctica.

Tabla de Contenidos


    Entendiendo el Conjunto de Datos Iris
    ¿Qué es el Análisis Univariado?
    Configurando el Entorno
    Cargando y Explorando los Datos
    Realizando Análisis Univariado
        
            Longitud del Sépalo
            Anchura del Sépalo
            Longitud del Pétalo
            Anchura del Pétalo
        
    
    Interpretando los Resultados
    Conclusión
    Referencias


Entendiendo el Conjunto de Datos Iris

El conjunto de datos Iris es un conjunto de datos clásico introducido por Ronald Fisher en 1936. Comprende 150 muestras de flores Iris categorizadas en tres especies:


    Iris Setosa
    Iris Versicolor
    Iris Virginica


Cada muestra tiene cuatro características:


    Longitud del Sépalo (en centímetros)
    Anchura del Sépalo (en centímetros)
    Longitud del Pétalo (en centímetros)
    Anchura del Pétalo (en centímetros)


La simplicidad y claridad de este conjunto de datos lo convierten en un excelente candidato para explorar diversas técnicas estadísticas y de aprendizaje automático.

¿Qué es el Análisis Univariado?

El Análisis Univariado implica el examen de una sola variable para resumir y encontrar patrones en los datos. En el contexto del aprendizaje automático, el análisis univariado ayuda a comprender la importancia de las características individuales en la predicción de la variable objetivo.

¿Por qué Usar el Análisis Univariado?


    Selección de Características: Identificar y seleccionar las características más relevantes para la construcción del modelo.
    Visualización de Datos: Comprender la distribución y dispersión de las características individuales.
    Reducción de Ruido: Eliminar características irrelevantes o redundantes para mejorar el rendimiento del modelo.


Configurando el Entorno

Antes de sumergirnos en el análisis, asegúrate de tener las herramientas y bibliotecas necesarias instaladas. Usaremos Jupyter Notebook para un entorno de codificación interactivo y las siguientes bibliotecas de Python:


    NumPy
    Pandas
    Matplotlib
    Seaborn


Puedes instalar estas bibliotecas usando pip si aún no lo has hecho:





		
		
			
			
Java
			
			pip install numpy pandas matplotlib seaborn
			
				
					
				
					1
				
						pip install numpy pandas matplotlib seaborn
					
				
			
		



Cargando y Explorando los Datos

Comencemos cargando el conjunto de datos Iris y realizando una exploración inicial.

Importando Bibliotecas





		
		
			
			
Java
			
			import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()  # Set Seaborn default style
			
				
					
				
					1
2
3
4
5
6
				
						import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
 
sns.set()  # Set Seaborn default style
					
				
			
		



Cargando el Conjunto de Datos





		
		
			
			
Java
			
			# Define column names
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

# Load the dataset
iris = pd.read_csv('iris.data', names=names)

# Display the first few rows
iris.head()
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Define column names
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
 
# Load the dataset
iris = pd.read_csv('iris.data', names=names)
 
# Display the first few rows
iris.head()
					
				
			
		



Salida:


    
        sepal_length
        sepal_width
        petal_length
        petal_width
        class
    
    
        5.1
        3.5
        1.4
        0.2
        Iris-setosa
    
    
        4.9
        3.0
        1.4
        0.2
        Iris-setosa
    
    
        4.7
        3.2
        1.3
        0.2
        Iris-setosa
    
    
        4.6
        3.1
        1.5
        0.2
        Iris-setosa
    
    
        5.0
        3.6
        1.4
        0.2
        Iris-setosa
    


Realizando Análisis Univariado

El análisis univariado en este contexto implica analizar cada característica individualmente para evaluar su efectividad en la clasificación de las especies de Iris. Visualizaremos la distribución de cada característica a través de las tres clases utilizando Seaborn's FacetGrid y distplot.

1. Longitud del Sépalo





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_length') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_length') \
    .add_legend()
plt.show()
					
				
			
		



Análisis:

El gráfico de distribución de la longitud del sépalo muestra una superposición significativa entre las tres especies de Iris. Esta superposición indica que la longitud del sépalo por sí sola puede no ser una característica confiable para distinguir entre las clases, especialmente entre Iris Versicolor e Iris Virginica.

2. Anchura del Sépalo





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_width') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_width') \
    .add_legend()
plt.show()
					
				
			
		



Análisis:

La distribución de la anchura del sépalo ilustra todavía más una considerable superposición, particularmente entre Iris Versicolor e Iris Virginica. Esta superposición sugiere que la anchura del sépalo es aún menos efectiva que la longitud del sépalo para fines de clasificación.

3. Longitud del Pétalo





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_length') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_length') \
    .add_legend()
plt.show()
					
				
			
		



Análisis:

El gráfico para la longitud del pétalo revela una separación más clara, especialmente para Iris Setosa, que está claramente separada de las otras dos clases. Aunque todavía hay algo de superposición entre Iris Versicolor e Iris Virginica, la longitud del pétalo emerge como una característica más prometedora para la clasificación.

4. Anchura del Pétalo





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_width') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_width') \
    .add_legend()
plt.show()
					
				
			
		



Análisis:

Similar a la longitud del pétalo, la anchura del pétalo muestra un buen grado de separación entre Iris Setosa y las otras dos especies. Aunque hay una ligera superposición entre Iris Versicolor e Iris Virginica, la anchura del pétalo sigue siendo una fuerte candidata para su uso en modelos de clasificación.

Interpretando los Resultados

Basado en el análisis univariado:


    Anchura del Sépalo: Peor desempeño con el mayor grado de superposición entre clases. Rango: 4
    Longitud del Sépalo: Superposición moderada, especialmente entre Iris Versicolor e Iris Virginica. Rango: 3
    Anchura del Pétalo: Buena separación con superposiciones menores. Rango: 2
    Longitud del Pétalo: Mejor desempeño con distinciones claras, particularmente para Iris Setosa. Rango: 1


Estrategia de Selección de Características

Dado los rangos, es recomendable:


    Seleccionar: Longitud del pétalo y anchura del pétalo como las características principales para la clasificación.
    Eliminar: Longitud del sépalo y anchura del sépalo para reducir la dimensionalidad y el posible ruido.


Conclusión

El análisis univariado sirve como un paso fundamental en el proceso de selección de características, ofreciendo insights sobre el poder predictivo individual de cada característica. Al aplicar esta técnica al conjunto de datos Iris, identificamos la longitud del pétalo y la anchura del pétalo como las características más efectivas para clasificar las tres especies de Iris.

Este análisis no solo agiliza el proceso de construcción del modelo al reducir la dimensionalidad, sino que también mejora el rendimiento del modelo al eliminar características menos informativas. Como practicantes de aprendizaje automático, aprovechar tales técnicas exploratorias es crucial para desarrollar modelos predictivos robustos y precisos.

Referencias


    Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-188.
    Documentación de Seaborn
    Conjunto de Datos Iris en el Repositorio de Aprendizaje Automático de UCI




If you found this article helpful, feel free to share it with your network or leave a comment below! For more insights on data analysis and machine learning, subscribe to our newsletter.
sepal_length	sepal_width	petal_length	petal_width	class
5.1	3.5	1.4	0.2	Iris-setosa
4.9	3.0	1.4	0.2	Iris-setosa
4.7	3.2	1.3	0.2	Iris-setosa
4.6	3.1	1.5	0.2	Iris-setosa
5.0	3.6	1.4	0.2	Iris-setosa