S05L07 – 과제 해결 및 원-핫 인코딩 – 파트 01

html
데이터 전처리 종합 가이드: 파이썬을 활용한 원-핫 인코딩 및 결측 데이터 처리

데이터 과학 및 머신러닝 분야에서 데이터 전처리는 모델의 성능과 정확도에 상당한 영향을 미칠 수 있는 중요한 단계입니다. 이 종합 가이드는 원-핫 인코딩, 결측 데이터 처리, 특징 선택 등과 같은 필수 전처리 기술을 Python의 강력한 라이브러리인 pandas와 scikit-learn을 사용하여 깊이 있게 다룹니다. 우리는 Weather Australia 데이터셋을 사용한 실용적인 예제를 통해 이러한 개념을 단계별로 설명할 것입니다.

목차

    소개
    데이터셋 이해하기
    결측 데이터 처리
        
            수치 데이터
            범주형 데이터
        
    
    특징 선택
    레이블 인코딩
    원-핫 인코딩
    불균형 데이터 처리
        
            오버샘플링
            언더샘플링
        
    
    학습-테스트 분할
    특징 스케일링
        
            표준화
            정규화
        
    
    결론


소개

데이터 전처리는 견고한 머신러닝 모델이 구축되는 기초입니다. 이는 원시 데이터를 깨끗하고 조직화된 형식으로 변환하여 분석에 적합하게 만드는 과정을 포함합니다. 이 과정에는 다음이 포함됩니다:


    결측 데이터 처리: 데이터셋의 공백을 해결합니다.
    범주형 변수 인코딩: 비수치 데이터를 수치 형식으로 변환합니다.
    특징 선택: 가장 관련성이 높은 특징을 식별하고 유지합니다.
    데이터셋 균형 맞추기: 클래스의 균등 분포를 보장합니다.
    특징 스케일링: 모델의 성능을 향상시키기 위해 데이터를 정규화합니다.


Python을 사용하여 이러한 개념을 단계별로 탐구해 보겠습니다.

데이터셋 이해하기

전처리에 들어가기 전에, 우리가 작업하고 있는 데이터셋을 이해하는 것이 중요합니다. 우리는 142,193개의 레코드와 24개의 열을 포함하는 Weather Australia 데이터셋을 사용할 것입니다. 이 데이터셋에는 기온, 강수량, 습도 등의 다양한 기상 속성과 함께 다음 날 비가 올지를 나타내는 목표 변수가 포함되어 있습니다.

데이터셋 샘플





		
		
			
			
Java
			
			Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,WindDir3pm,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RISK_MM,RainTomorrow
2008-12-01,Albury,13.4,22.9,0.6,NA,NA,W,44,W,WNW,20,24,71,22,1007.7,1007.1,8,NA,16.9,21.8,No,0,No
... (additional rows)
			
				
					
				
					1
2
3
				
						Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,WindDir3pm,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RISK_MM,RainTomorrow
2008-12-01,Albury,13.4,22.9,0.6,NA,NA,W,44,W,WNW,20,24,71,22,1007.7,1007.1,8,NA,16.9,21.8,No,0,No
... (additional rows)
					
				
			
		



결측 데이터 처리

실제 데이터셋에는 종종 결측 값이 포함되어 있습니다. 이러한 공백을 적절히 처리하는 것은 결과가 왜곡되는 것을 방지하고 모델의 정확성을 보장하는 데 필수적입니다.

수치 데이터

우리 데이터셋의 수치 열에는 MinTemp, MaxTemp, Rainfall, Evaporation 등이 포함됩니다. 이러한 열의 결측 값은 평균, 중앙값 또는 최빈값과 같은 통계적 측정값으로 대체할 수 있습니다.





		
		
			
			
Java
			
			import numpy as np
from sklearn.impute import SimpleImputer

# 평균 전략으로 이뮤터 초기화
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

# 수치 열의 인덱스 목록
numerical_cols = [2,3,4,5,6,8,11,12,13,14,15,16,17,18,19,20]

# 데이터에 적합 및 변환
X.iloc[:, numerical_cols] = imp_mean.fit_transform(X.iloc[:, numerical_cols])
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						import numpy as np
from sklearn.impute import SimpleImputer
 
# 평균 전략으로 이뮤터 초기화
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
 
# 수치 열의 인덱스 목록
numerical_cols = [2,3,4,5,6,8,11,12,13,14,15,16,17,18,19,20]
 
# 데이터에 적합 및 변환
X.iloc[:, numerical_cols] = imp_mean.fit_transform(X.iloc[:, numerical_cols])
					
				
			
		



범주형 데이터

Location, WindGustDir, WindDir9am 등의 범주형 열은 평균이나 중앙값으로 결측 값을 대체할 수 없습니다. 대신 최빈값을 사용하여 이러한 공백을 채웁니다.





		
		
			
			
Java
			
			from sklearn.impute import SimpleImputer

# 범주형 열의 인덱스 목록
string_cols = [1,7,9,10,21]

# 최빈값 전략으로 이뮤터 초기화
imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

# 데이터에 적합 및 변환
X.iloc[:, string_cols] = imp_freq.fit_transform(X.iloc[:, string_cols])
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						from sklearn.impute import SimpleImputer
 
# 범주형 열의 인덱스 목록
string_cols = [1,7,9,10,21]
 
# 최빈값 전략으로 이뮤터 초기화
imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
 
# 데이터에 적합 및 변환
X.iloc[:, string_cols] = imp_freq.fit_transform(X.iloc[:, string_cols])
					
				
			
		



특징 선택

특징 선택은 예측 작업에 기여하는 가장 관련성이 높은 변수를 식별하는 과정입니다. 우리 경우, Date 및 RISK_MM과 같은 관련 없거나 중복된 열을 삭제할 것입니다.





		
		
			
			
Java
			
			# 'RISK_MM' 및 'Date' 열 삭제
X.drop(['RISK_MM', 'Date'], axis=1, inplace=True)
			
				
					
				
					1
2
				
						# 'RISK_MM' 및 'Date' 열 삭제
X.drop(['RISK_MM', 'Date'], axis=1, inplace=True)
					
				
			
		



레이블 인코딩

레이블 인코딩은 범주형 목표 변수를 수치 형식으로 변환합니다. 내일 비가 올지(Yes 또는 No)를 예측하는 이진 분류 작업에 이 방법은 간단합니다.





		
		
			
			
Java
			
			from sklearn import preprocessing

# LabelEncoder 초기화
le = preprocessing.LabelEncoder()

# 목표 변수에 적합 및 변환
Y = le.fit_transform(Y)
			
				
					
				
					1
2
3
4
5
6
7
				
						from sklearn import preprocessing
 
# LabelEncoder 초기화
le = preprocessing.LabelEncoder()
 
# 목표 변수에 적합 및 변환
Y = le.fit_transform(Y)
					
				
			
		



원-핫 인코딩

레이블 인코딩은 서열형 데이터에 적합하지만, 원-핫 인코딩은 범주 간에 내재된 순서가 없는 명목형 데이터에 선호됩니다. 이 기술은 각 범주에 대한 이진 열을 생성하여 모델이 범주형 변수를 해석하는 능력을 향상시킵니다.





		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# 지정된 열에 대해 OneHotEncoder를 사용한 ColumnTransformer 초기화
columnTransformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [0,6,8,9,20])],
    remainder='passthrough'
)

# 특징 행렬에 적합 및 변환
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# 지정된 열에 대해 OneHotEncoder를 사용한 ColumnTransformer 초기화
columnTransformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [0,6,8,9,20])],
    remainder='passthrough'
)
 
# 특징 행렬에 적합 및 변환
X = columnTransformer.fit_transform(X)
					
				
			
		



참고: 열 [0,6,8,9,20]은 Location, WindGustDir 등과 같은 범주형 특징에 해당합니다.

불균형 데이터 처리

한 클래스가 다른 클래스보다 현저히 많은 불균형 데이터셋은 모델을 편향시킬 수 있습니다. 오버샘플링 및 언더샘플링과 같은 기술은 데이터셋의 균형을 맞추는 데 도움이 됩니다.

오버샘플링

랜덤 오버샘플링은 소수 클래스의 인스턴스를 복제하여 클래스 분포를 균등하게 만듭니다.





		
		
			
			
Java
			
			from imblearn.over_sampling import RandomOverSampler
from collections import Counter

# RandomOverSampler 초기화
ros = RandomOverSampler(random_state=42)

# 데이터셋 리샘플링
X, Y = ros.fit_resample(X, Y)

# 새로운 클래스 분포 확인
print(Counter(Y))
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						from imblearn.over_sampling import RandomOverSampler
from collections import Counter
 
# RandomOverSampler 초기화
ros = RandomOverSampler(random_state=42)
 
# 데이터셋 리샘플링
X, Y = ros.fit_resample(X, Y)
 
# 새로운 클래스 분포 확인
print(Counter(Y))
					
				
			
		



출력:




		
		
			
			
Java
			
			Counter({0: 110316, 1: 110316})
			
				
					
				
					1
				
						Counter({0: 110316, 1: 110316})
					
				
			
		



언더샘플링

랜덤 언더샘플링은 다수 클래스의 인스턴스를 줄이지만 정보 손실이 발생할 수 있습니다. 이 가이드에서는 모든 데이터 포인트를 유지하기 위해 오버샘플링을 사용했습니다.

학습-테스트 분할

데이터셋을 학습 세트와 테스트 세트로 분할하는 것은 미지의 데이터에 대한 모델의 성능을 평가하는 데 중요합니다.





		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

# 데이터 분할: 학습 80%, 테스트 20%
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)

print(X_train.shape)  # 출력: (176505, 115)
print(X_test.shape)   # 출력: (44127, 115)
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						from sklearn.model_selection import train_test_split
 
# 데이터 분할: 학습 80%, 테스트 20%
X_train, X_test, y_train, y_test = train_test_split(
    X, Y, test_size=0.20, random_state=1
)
 
print(X_train.shape)  # 출력: (176505, 115)
print(X_test.shape)   # 출력: (44127, 115)
					
				
			
		



특징 스케일링

특징 스케일링은 모든 수치적 특징이 모델의 성능에 동일하게 기여하도록 보장합니다.

표준화

표준화는 데이터의 평균을 0과 표준 편차를 1로 변환합니다.





		
		
			
			
Java
			
			from sklearn import preprocessing

# StandardScaler 초기화
sc = preprocessing.StandardScaler()

# 학습 데이터에 적합
sc.fit(X_train)

# 학습 및 테스트 데이터 변환
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)

print(X_train.shape)  # 출력: (176505, 115)
print(X_test.shape)   # 출력: (44127, 115)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						from sklearn import preprocessing
 
# StandardScaler 초기화
sc = preprocessing.StandardScaler()
 
# 학습 데이터에 적합
sc.fit(X_train)
 
# 학습 및 테스트 데이터 변환
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
 
print(X_train.shape)  # 출력: (176505, 115)
print(X_test.shape)   # 출력: (44127, 115)
					
				
			
		



정규화

정규화는 특징을 0과 1 사이의 범위로 스케일링합니다. 이 가이드에서는 다루지 않았지만, 데이터셋과 모델의 요구 사항에 따라 또 다른 유용한 스케일링 기술입니다.





		
		
			
			
Java
			
			from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 초기화
mm_scaler = MinMaxScaler()

# 데이터에 적합 및 변환
X_train_mm = mm_scaler.fit_transform(X_train)
X_test_mm = mm_scaler.transform(X_test)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from sklearn.preprocessing import MinMaxScaler
 
# MinMaxScaler 초기화
mm_scaler = MinMaxScaler()
 
# 데이터에 적합 및 변환
X_train_mm = mm_scaler.fit_transform(X_train)
X_test_mm = mm_scaler.transform(X_test)
					
				
			
		



결론

효과적인 데이터 전처리는 고성능 머신러닝 모델을 구축하는 데 필수적입니다. 결측 데이터를 신중하게 처리하고, 범주형 변수를 인코딩하며, 데이터셋의 균형을 맞추고, 특징을 스케일링함으로써 예측 작업을 위한 견고한 기반을 마련할 수 있습니다. 이 가이드는 Python의 강력한 라이브러리를 사용한 실습 접근 방식을 제공하여 이러한 기술이 데이터 과학 워크플로우에 원활하게 통합될 수 있음을 보여주었습니다.

데이터의 품질은 모델의 성공에 직접적인 영향을 미칩니다. 데이터 전처리에 시간을 투자하여 데이터셋의 잠재력을 최대한 발휘하세요.



키워드

    데이터 전처리
    원-핫 인코딩
    결측 데이터 처리
    Python pandas
    scikit-learn
    머신러닝
    특징 스케일링
    불균형 데이터
    레이블 인코딩
    범주형 변수