S18L07 – 特征选择

html
掌握机器学习中的特征选择：全面指南

目录

    特征选择简介
    为什么特征选择很重要
    了解 SelectKBest 和 CHI2
    
        逐步特征选择过程
        
            1. 导入库和数据
            2. 探索性数据分析 (EDA)
            3. 处理缺失数据
            4. 编码分类变量
            5. 特征缩放
            6. 使用 CHI2 应用 SelectKBest
            7. 选择和删除特征
            8. 分割数据集
        
    
    实用示例：天气数据集
    特征选择的最佳实践
    结论
    附加资源


特征选择简介
特征选择涉及选择用于模型构建的一组相关特征（变量、预测器）。通过消除无关或冗余的数据，特征选择可以提高模型性能，减少过拟合，并降低计算成本。

为什么特征选择很重要

    提高模型性能：减少不相关特征的数量可以提高模型的准确性。
    减少过拟合：较少的特征降低了模型捕捉数据中噪声的可能性。
    加快训练速度：较少的数据意味着减少计算资源和更快的模型训练时间。
    增强可解释性：简化的模型更易于理解和解释。


了解 SelectKBest 和 CHI2
SelectKBest 是 scikit-learn 提供的一种特征选择方法，它基于评分函数选择前 'k' 个特征。当与 CHI2（卡方检验） 配合使用时，它评估每个特征与目标变量的独立性，使其对于分类数据尤其有用。
CHI2 测试：评估两个变量之间是否存在显著关联，考虑它们的频率。

逐步特征选择过程

1. 导入库和数据
首先导入必要的 Python 库和数据集。





		
		
			
			
Java
			
			import pandas as pd 
import seaborn as sns
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import train_test_split
			
				
					
				
					1
2
3
4
5
6
7
8
				
						import pandas as pd 
import seaborn as sns
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import train_test_split
					
				
			
		



数据集：在本指南中，我们将使用 Kaggle 的天气数据集。





		
		
			
			
Java
			
			data = pd.read_csv('weatherAUS.csv')
data.head()
			
				
					
				
					1
2
				
						data = pd.read_csv('weatherAUS.csv')
data.head()
					
				
			
		



2. 探索性数据分析 (EDA)
了解数据的结构和相关性是至关重要的。





		
		
			
			
Java
			
			# Correlation Matrix
corr_matrix = data.corr()
sns.heatmap(corr_matrix, annot=True)
			
				
					
				
					1
2
3
				
						# Correlation Matrix
corr_matrix = data.corr()
sns.heatmap(corr_matrix, annot=True)
					
				
			
		



关键观察：

    某些温度变量之间存在强相关性。
    湿度和压力属性与目标变量显示出显著关系。



3. 处理缺失数据
缺失数据可能会扭曲结果。正确处理它们至关重要。

数值数据
使用 SimpleImputer 并采用 'mean' 策略填充缺失的数值值。





		
		
			
			
Java
			
			from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns
data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])
			
				
					
				
					1
2
3
4
5
				
						from sklearn.impute import SimpleImputer
 
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns
data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])
					
				
			
		



分类数据
对于分类变量，使用最频繁值填充缺失项。





		
		
			
			
Java
			
			imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
categorical_cols = data.select_dtypes(include=['object']).columns
data[categorical_cols] = imp_mode.fit_transform(data[categorical_cols])
			
				
					
				
					1
2
3
				
						imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
categorical_cols = data.select_dtypes(include=['object']).columns
data[categorical_cols] = imp_mode.fit_transform(data[categorical_cols])
					
				
			
		



4. 编码分类变量
机器学习模型需要数值输入，因此需要对分类变量进行编码。

独热编码
适用于具有两个以上类别的分类变量。





		
		
			
			
Java
			
			def OneHotEncoderMethod(indices, data):
    columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')
    return columnTransformer.fit_transform(data)

one_hot_indices = [data.columns.get_loc(col) for col in ['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday']]
X = OneHotEncoderMethod(one_hot_indices, data)
			
				
					
				
					1
2
3
4
5
6
				
						def OneHotEncoderMethod(indices, data):
    columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')
    return columnTransformer.fit_transform(data)
 
one_hot_indices = [data.columns.get_loc(col) for col in ['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday']]
X = OneHotEncoderMethod(one_hot_indices, data)
					
				
			
		



标签编码
适用于二元分类变量。





		
		
			
			
Java
			
			def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series) 

y = LabelEncoderMethod(data['RainTomorrow'])
			
				
					
				
					1
2
3
4
5
				
						def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series) 
 
y = LabelEncoderMethod(data['RainTomorrow'])
					
				
			
		



编码选择
根据唯一类别的数量自动化编码过程。





		
		
			
			
Java
			
			def EncodingSelection(X, threshold=10):
    string_cols = list(np.where((X.dtypes == object))[0])
    one_hot_encoding_indices = []
    
    for col in string_cols:
        unique_values = len(pd.unique(X[X.columns[col]]))
        if unique_values == 2 or unique_values > threshold:
            X[X.columns[col]] = LabelEncoderMethod(X[X.columns[col]])
        else:
            one_hot_encoding_indices.append(col)
                
    X = OneHotEncoderMethod(one_hot_encoding_indices, X)
    return X

X = EncodingSelection(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
				
						def EncodingSelection(X, threshold=10):
    string_cols = list(np.where((X.dtypes == object))[0])
    one_hot_encoding_indices = []
    
    for col in string_cols:
        unique_values = len(pd.unique(X[X.columns[col]]))
        if unique_values == 2 or unique_values > threshold:
            X[X.columns[col]] = LabelEncoderMethod(X[X.columns[col]])
        else:
            one_hot_encoding_indices.append(col)
                
    X = OneHotEncoderMethod(one_hot_encoding_indices, X)
    return X
 
X = EncodingSelection(X)
					
				
			
		



5. 特征缩放
标准化特征确保每个特征对结果做出同等贡献。





		
		
			
			
Java
			
			sc = StandardScaler(with_mean=False)
X = sc.fit_transform(X)
			
				
					
				
					1
2
				
						sc = StandardScaler(with_mean=False)
X = sc.fit_transform(X)
					
				
			
		



6. 使用 CHI2 应用 SelectKBest
选择与目标变量关系最强的前 'k' 个特征。





		
		
			
			
Java
			
			kbest = SelectKBest(score_func=chi2, k=10)
X_temp = MinMaxScaler().fit_transform(X)
X_temp = kbest.fit_transform(X_temp, y)
			
				
					
				
					1
2
3
				
						kbest = SelectKBest(score_func=chi2, k=10)
X_temp = MinMaxScaler().fit_transform(X)
X_temp = kbest.fit_transform(X_temp, y)
					
				
			
		



7. 选择和删除特征
识别并保留最相关的特征，同时丢弃最不重要的特征。





		
		
			
			
Java
			
			# Scores for feature selection
scores = kbest.scores_
features = data.columns[:-1]  # Exclude target variable

# Selecting top 10 features
best_features_indices = np.argsort(scores)[-10:]
best_features = [features[i] for i in best_features_indices]

# Dropping the least important features
features_to_delete = np.argsort(scores)[:-10]
X = np.delete(X, features_to_delete, axis=1)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						# Scores for feature selection
scores = kbest.scores_
features = data.columns[:-1]  # Exclude target variable
 
# Selecting top 10 features
best_features_indices = np.argsort(scores)[-10:]
best_features = [features[i] for i in best_features_indices]
 
# Dropping the least important features
features_to_delete = np.argsort(scores)[:-10]
X = np.delete(X, features_to_delete, axis=1)
					
				
			
		



8. 分割数据集
将数据分为训练集和测试集以评估模型性能。





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)
					
				
			
		



实用示例：天气数据集
使用天气数据集，我们演示了整个特征选择流程：

    数据导入：使用 pandas 加载数据集。
    EDA：使用 seaborn 的热图可视化相关性。
    缺失数据处理：填补缺失的数值和分类值。
    编码：根据类别基数应用独热编码和标签编码。
    缩放：标准化特征以规范化数据。
    特征选择：使用 CHI2 的 SelectKBest 识别表现最佳的特征。
    数据分割：将数据分为训练和测试子集以进行模型训练。

结果：成功将特征维度从 23 降低到 13，提高了模型效率，同时不影响准确性。

特征选择的最佳实践

    了解您的数据：进行全面的 EDA 以理解特征之间的关系。
    处理缺失值：确保适当地填补缺失数据以维护数据完整性。
    选择合适的编码技术：根据分类变量的性质选择编码方法。
    缩放您的特征：标准化或归一化确保特征同等贡献。
    迭代特征选择：在开发模型时持续评估和优化特征选择。
    避免数据泄露：确保特征选择仅在分割前的训练数据上进行。


结论
特征选择是机器学习流程中不可或缺的组成部分。通过精心选择相关特征，不仅可以优化模型以获得更好的性能，还可以简化计算资源。像 SelectKBest 和 CHI2 这样的工具提供了强大的方法来评估和选择最有影响力的特征，确保您的模型既高效又有效。

附加资源

    Scikit-learn 特征选择文档
    Kaggle 天气数据集
    特征选择的完整教程
    理解 CHI2 检验

通过这些见解开始您的特征选择之旅，将您的机器学习模型提升到新的高度！