S05L05 – Subamostragem e Superamostragem

html
Entendendo o Balanceamento de Dados em Aprendizado de Máquina

Sumário

    Introdução
    A Importância do Balanceamento de Dados
    Problemas Causados por Dados Desbalanceados
    Melhores Práticas Antes de Dividir os Dados
    Técnicas para Balanceamento de Dados
    Usando a Biblioteca imblearn
    Técnicas Avançadas
    Conclusão


Introdução
Bem-vindo de volta! Na discussão de hoje, mergulhamos em um aspecto crucial do aprendizado de máquina: balanceamento dos dados. Embora cubriremos os conceitos fundamentais, tenha certeza de que tópicos mais avançados como redução de dimensionalidade e SMOTE (Técnica de Sobreamostragem de Minorias Sintéticas) estão no horizonte para discussões futuras.

A Importância do Balanceamento de Dados
Ao pré-processar dados para modelos de aprendizado de máquina, garantir que o conjunto de dados esteja balanceado é vital. Dados balanceados significam que cada classe ou categoria em seu conjunto de dados é representada igualmente, prevenindo que qualquer classe única domine o processo de treinamento.
Por exemplo, considere um conjunto de dados onde entradas masculinas aparecem nove vezes mais frequentemente do que entradas femininas. Esse desequilíbrio pode distorcer as previsões do modelo, levando-o a favorecer a classe majoritária—neste caso, os homens. Tal viés pode resultar em métricas de precisão enganosas. Por exemplo, se 75% de seus dados são masculinos, um modelo que sempre prediz "masculino" alcançará 75% de precisão, independentemente de sua real capacidade preditiva.
Mesmo desequilíbrios leves podem apresentar desafios:

    Exemplo de Três Categorias: Suponha que você tenha três categorias—0, 1 e 2—com distribuições de 29%, 33% e 38%, respectivamente. Embora isso possa parecer relativamente balanceado, a diferença—como ter nove homens para quatro mulheres—pode ainda impactar significativamente a performance do modelo.


Problemas Causados por Dados Desbalanceados
Conjuntos de dados desbalanceados podem levar a:

    Predições Viciadas: Modelos podem favorecer desproporcionalmente a classe majoritária.
    Métricas de Avaliação Enganosas: A precisão pode parecer alta enquanto o modelo desempenha mal nas classes minoritárias.
    Pobre Generalização: O modelo pode falhar em generalizar bem para dados não vistos, especialmente para classes sub-representadas.


Melhores Práticas Antes de Dividir os Dados
Antes de dividir seus dados em conjuntos de treinamento e teste, é imperativo abordar quaisquer desequilíbrios. Não fazê-lo pode resultar em divisões viciadas, onde, por exemplo, todas as amostras de teste pertencem à classe majoritária. Este cenário não apenas prejudica a avaliação do modelo, mas também sua aplicabilidade no mundo real.

Técnicas para Balanceamento de Dados
Existem principalmente duas abordagens para lidar com dados desbalanceados:

    
        Subamostragem:
        
            O que é: Este método envolve reduzir o número de instâncias na classe majoritária para igualar a classe minoritária.
            Como funciona: Selecionar aleatoriamente e reter um subconjunto da classe majoritária enquanto descarta o restante.
            Prós: Simplifica o conjunto de dados e pode reduzir o tempo de treinamento.
            Contras: Perda potencial de informações valiosas, o que pode degradar a performance do modelo.
        
        Exemplo usando imblearn:
        



		
		
			
			
Java
			
			from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.under_sampling import RandomUnderSampler
 
rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
					
				
			
		


    
    
        Sobreamostragem:
        
            O que é: Esta técnica envolve aumentar o número de instâncias na classe minoritária para igualar a classe majoritária.
            Como funciona: Gerar amostras sintéticas ou replicar as existentes para fortalecer a classe minoritária.
            Prós: Preserva todas as informações da classe majoritária.
            Contras: Pode levar ao sobreajuste, já que replica instâncias minoritárias existentes.
        
        Exemplo usando imblearn:
        



		
		
			
			
Java
			
			from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.over_sampling import RandomOverSampler
 
ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
					
				
			
		


    


Usando a Biblioteca imblearn
A biblioteca imblearn em Python oferece ferramentas diretas para tanto subamostragem quanto sobreamostragem. Aqui está um guia rápido para instalá-la e usá-la:

    Instalação:
        Se ainda não estiver instalada, você pode adicionar imblearn usando pip:
        



		
		
			
			
Java
			
			pip install imblearn
			
				
					
				
					1
				
						pip install imblearn
					
				
			
		


    
    Implementação:
        
            Subamostragem:
                



		
		
			
			
Java
			
			from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.under_sampling import RandomUnderSampler
 
rus = RandomUnderSampler(random_state=42)
X_resampled, Y_resampled = rus.fit_resample(X, Y)
					
				
			
		


            
            Sobreamostragem:
                



		
		
			
			
Java
			
			from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
			
				
					
				
					1
2
3
4
				
						from imblearn.over_sampling import RandomOverSampler
 
ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_resample(X, Y)
					
				
			
		


            
        
    


Técnicas Avançadas
Enquanto subamostragem e sobreamostragem aleatórias são simples e eficazes, métodos mais sofisticados como SMOTE podem oferecer melhores resultados ao gerar amostras sintéticas em vez de simplesmente duplicar ou descartar as existentes. SMOTE ajuda na criação de uma fronteira de decisão mais generalizada para a classe minoritária, melhorando a capacidade do modelo de prever instâncias minoritárias com precisão.

Conclusão
Balancear seu conjunto de dados é um passo fundamental na construção de modelos de aprendizado de máquina robustos e imparciais. Ao empregar técnicas como subamostragem e sobreamostragem, você pode mitigar os efeitos adversos de dados desbalanceados, levando a uma melhor performance e previsões mais confiáveis. À medida que avança, explorar métodos avançados como SMOTE irá refinar ainda mais sua abordagem para lidar com conjuntos de dados desbalanceados.
Obrigado por se juntar à discussão de hoje! Fique atento para mais insights e tópicos avançados em nossas próximas sessões. Tenha um ótimo dia e cuide-se!