S03L06 – Análise Univariada usando PDF

html
Análise Univariada do Conjunto de Dados Iris: Um Guia Abrangente para Seleção de Características em Aprendizado de Máquina

Publicado em [Data]



Introdução

No âmbito do aprendizado de máquina, a seleção de características desempenha um papel fundamental na construção de modelos eficientes e precisos. Uma técnica fundamental para a seleção de características é a análise univariada, que examina cada característica individualmente para determinar sua importância na previsão da variável alvo. Este artigo explora a aplicação da análise univariada no conjunto de dados Iris, um conjunto de dados essencial no campo do aprendizado de máquina e estatística.

Ao aproveitar as poderosas bibliotecas do Python, como Pandas, Seaborn e Matplotlib, exploraremos como identificar as características mais impactantes para classificar diferentes espécies de flores Iris. Seja você um entusiasta de dados ou um profissional experiente, este guia tem como objetivo aprimorar sua compreensão da análise univariada e sua implementação prática.

Índice


    Compreendendo o Conjunto de Dados Iris
    O que é Análise Univariada?
    Configurando o Ambiente
    Carregando e Explorando os Dados
    Realizando Análise Univariada
        
            Comprimento da Sépala
            Largura da Sépala
            Comprimento da Pétala
            Largura da Pétala
        
    
    Interpretando os Resultados
    Conclusão
    Referências


Compreendendo o Conjunto de Dados Iris

O conjunto de dados Iris é um conjunto de dados clássico introduzido por Ronald Fisher em 1936. Ele compreende 150 amostras de flores Iris categorizadas em três espécies:


    Iris Setosa
    Iris Versicolor
    Iris Virginica


Cada amostra possui quatro características:


    Comprimento da Sépala (em centímetros)
    Largura da Sépala (em centímetros)
    Comprimento da Pétala (em centímetros)
    Largura da Pétala (em centímetros)


A simplicidade e clareza deste conjunto de dados o tornam um excelente candidato para explorar várias técnicas estatísticas e de aprendizado de máquina.

O que é Análise Univariada?

A análise univariada envolve o exame de uma única variável para resumir e encontrar padrões nos dados. No contexto de aprendizado de máquina, a análise univariada ajuda a entender a importância das características individuais na previsão da variável alvo.

Por que Usar Análise Univariada?


    Seleção de Características: Identificar e selecionar as características mais relevantes para a construção do modelo.
    Visualização de Dados: Compreender a distribuição e a dispersão das características individuais.
    Redução de Ruído: Eliminar características irrelevantes ou redundantes para melhorar o desempenho do modelo.


Configurando o Ambiente

Antes de mergulhar na análise, certifique-se de ter as ferramentas e bibliotecas necessárias instaladas. Usaremos o Jupyter Notebook como um ambiente interativo de codificação e as seguintes bibliotecas do Python:


    NumPy
    Pandas
    Matplotlib
    Seaborn


Você pode instalar essas bibliotecas usando pip se ainda não o fez:





		
		
			
			
Java
			
			pip install numpy pandas matplotlib seaborn
			
				
					
				
					1
				
						pip install numpy pandas matplotlib seaborn
					
				
			
		



Carregando e Explorando os Dados

Vamos começar carregando o conjunto de dados Iris e realizando uma exploração inicial.

Importando Bibliotecas





		
		
			
			
Java
			
			import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()  # Set Seaborn default style
			
				
					
				
					1
2
3
4
5
6
				
						import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
 
sns.set()  # Set Seaborn default style
					
				
			
		



Carregando o Conjunto de Dados





		
		
			
			
Java
			
			# Define column names
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

# Load the dataset
iris = pd.read_csv('iris.data', names=names)

# Display the first few rows
iris.head()
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Define column names
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
 
# Load the dataset
iris = pd.read_csv('iris.data', names=names)
 
# Display the first few rows
iris.head()
					
				
			
		



Saída:


    
        sepal_length
        sepal_width
        petal_length
        petal_width
        class
    
    
        5.1
        3.5
        1.4
        0.2
        Iris-setosa
    
    
        4.9
        3.0
        1.4
        0.2
        Iris-setosa
    
    
        4.7
        3.2
        1.3
        0.2
        Iris-setosa
    
    
        4.6
        3.1
        1.5
        0.2
        Iris-setosa
    
    
        5.0
        3.6
        1.4
        0.2
        Iris-setosa
    


Realizando Análise Univariada

A análise univariada neste contexto envolve analisar cada característica individualmente para avaliar sua eficácia na classificação das espécies de Iris. Vamos visualizar a distribuição de cada característica entre as três classes usando o Seaborn's FacetGrid e distplot.

1. Comprimento da Sépala





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_length') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_length') \
    .add_legend()
plt.show()
					
				
			
		



Análise:

O gráfico de distribuição do comprimento da sépala mostra uma sobreposição significativa entre as três espécies de Iris. Essa sobreposição indica que o comprimento da sépala sozinho pode não ser uma característica confiável para distinguir entre as classes, especialmente entre Iris Versicolor e Iris Virginica.

2. Largura da Sépala





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_width') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'sepal_width') \
    .add_legend()
plt.show()
					
				
			
		



Análise:

A distribuição da largura da sépala ilustra ainda mais uma considerável sobreposição, especialmente entre Iris Versicolor e Iris Virginica. Essa sobreposição sugere que a largura da sépala é ainda menos eficaz do que o comprimento da sépala para fins de classificação.

3. Comprimento da Pétala





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_length') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_length') \
    .add_legend()
plt.show()
					
				
			
		



Análise:

O gráfico para o comprimento da pétala revela uma separação mais clara, especialmente para Iris Setosa, que está claramente separado das outras duas classes. Embora ainda haja alguma sobreposição entre Iris Versicolor e Iris Virginica, o comprimento da pétala surge como uma característica mais promissora para a classificação.

4. Largura da Pétala





		
		
			
			
Java
			
			sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_width') \
    .add_legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						sns.FacetGrid(data=iris, hue='class', height=5) \
    .map(sns.distplot, 'petal_width') \
    .add_legend()
plt.show()
					
				
			
		



Análise:

Semelhante ao comprimento da pétala, a largura da pétala mostra um bom grau de separação entre Iris Setosa e as outras duas espécies. Embora haja uma ligeira sobreposição entre Iris Versicolor e Iris Virginica, a largura da pétala continua sendo um forte candidato para uso em modelos de classificação.

Interpretando os Resultados

Com base na análise univariada:


    Largura da Sépala: Pior desempenho com o maior grau de sobreposição entre as classes. Classificação: 4
    Comprimento da Sépala: Sobreposição moderada, especialmente entre Iris Versicolor e Iris Virginica. Classificação: 3
    Largura da Pétala: Boa separação com sobreposições menores. Classificação: 2
    Comprimento da Pétala: Melhor desempenho com distinções claras, particularmente para Iris Setosa. Classificação: 1


Estratégia de Seleção de Características

Dadas as classificações, é aconselhável:


    Selecionar: Comprimento da pétala e largura da pétala como as principais características para classificação.
    Eliminar: Comprimento da sépala e largura da sépala para reduzir a dimensionalidade e o ruído potencial.


Conclusão

A análise univariada serve como uma etapa fundamental no processo de seleção de características, oferecendo insights sobre o poder preditivo individual de cada característica. Ao aplicar essa técnica ao conjunto de dados Iris, identificamos comprimento da pétala e largura da pétala como as características mais eficazes para classificar as três espécies de Iris.

Essa análise não apenas simplifica o processo de construção do modelo ao reduzir a dimensionalidade, mas também aumenta o desempenho do modelo ao eliminar características menos informativas. Como profissionais de aprendizado de máquina, aproveitar essas técnicas exploratórias é crucial para desenvolver modelos preditivos robustos e precisos.

Referências


    Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-188.
    Seaborn Documentation
    Iris Dataset on UCI Machine Learning Repository




Se você achou este artigo útil, sinta-se à vontade para compartilhá-lo com sua rede ou deixar um comentário abaixo! Para mais insights sobre análise de dados e aprendizado de máquina, inscreva-se em nosso boletim informativo.
sepal_length	sepal_width	petal_length	petal_width	class
5.1	3.5	1.4	0.2	Iris-setosa
4.9	3.0	1.4	0.2	Iris-setosa
4.7	3.2	1.3	0.2	Iris-setosa
4.6	3.1	1.5	0.2	Iris-setosa
5.0	3.6	1.4	0.2	Iris-setosa