S20L04 – 多类别分类的逻辑回归

html
理解逻辑回归：从基础到多类分类

目录

    逻辑回归简介
    逻辑回归与线性回归
    逻辑回归的二元分类
    扩展到多类分类
    一对多（OvA）方法
    概率与决策边界
    使用 Scikit-Learn 的实际实现
    结论




逻辑回归简介
逻辑回归是机器学习和统计分析领域的基石。无论您是刚踏入数据科学领域的新手，还是希望巩固理解的资深专业人士，掌握逻辑回归的细微差别都是至关重要的。本综合指南深入探讨了逻辑回归的基本原理，区分了二元分类与多类分类，并阐明了一对多策略在有效的多类建模中的应用。


图1：逻辑回归的S曲线展示概率。

逻辑回归与线性回归
从本质上说，逻辑回归源自线性回归模型。线性回归通过拟合一条直线来建模变量之间的关系，而逻辑回归则采用逻辑函数（也称为 sigmoid 函数）将输出限制在0到1之间。这种转换使逻辑回归能够建模概率，从而适用于分类任务。

主要区别：

    输出：线性回归预测连续值，而逻辑回归输出概率。
    使用的函数：线性回归使用线性函数，而逻辑回归使用 sigmoid 函数。
    用途：线性回归用于回归任务；逻辑回归用于分类。


逻辑回归的二元分类
在二元分类中，目标是将数据点归类到两个不同的类别之一。逻辑回归通过估计给定输入属于特定类别的概率来实现这一点。

工作原理：

    线性组合：计算输入特征的加权和。
    Sigmoid 函数：应用 sigmoid 函数将线性组合映射到0到1之间的概率。
    决策边界：确定一个阈值（通常为0.5）将输入分类到两个类别之一。


示例场景：

设想根据关键词频率、发送者信誉和邮件长度等特征预测一封邮件是否为垃圾邮件（1）或非垃圾邮件（0）。

扩展到多类分类
虽然逻辑回归本质上是一个二元分类器，但它可以扩展以处理多类分类问题，其目标是将输入分类到三个或更多类别之一。

多类分类中的挑战：

    决策边界：一个单一的决策边界不足以区分多个类别。
    概率分配：为每个类别分配概率，使其总和等于一。


一对多（OvA）方法
一对多，也称为一对其余，是一种广泛采用的策略，用于将诸如逻辑回归这样的二元分类器扩展到多类问题。

OvA 的工作原理：

    多个模型：为每个类别训练一个独立的二元分类器。每个模型学习将一个类别与所有其他类别区分开。
    概率估计：每个分类器输出一个概率，表示输入属于其各自类别的可能性。
    最终预测：将输入分配给所有分类器中概率最高的那个类别。


说明性示例：

考虑一个包含三类的数据集：圆形、三角形和正方形。


    模型 M1：区分圆形与（三角形 & 正方形）
    模型 M2：区分三角形与（圆形 & 正方形）
    模型 M3：区分正方形与（圆形 & 三角形）


对于一个新的数据点，每个模型都会提供一个概率。最终预测选择概率最高的类别。

概率与决策边界
逻辑回归利用 sigmoid 函数生成一个平滑的S曲线，表示数据点属于特定类别的概率。决策边界是基于这些概率将类别分开的阈值（通常为0.5）。

关键见解：

    置信水平：数据点距离决策边界越远，模型对其分类的置信度越高。
    重叠情景：靠近决策边界的数据点置信度较低，表明分类存在模糊性。


可视化：

图2：决策边界和置信水平的可视化。

使用 Scikit-Learn 的实际实现
使用 Python 中的 Scikit-Learn 库实现逻辑回归，特别是使用 OvA 方法处理多类问题，是一个简化的过程。

分步指南：

    导入库：





		
		
			
			
Java
			
			from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
			
				
					
				
					1
2
3
4
				
						from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
					
				
			
		




    加载数据：





		
		
			
			
Java
			
			iris = load_iris()
X = iris.data
y = iris.target
			
				
					
				
					1
2
3
				
						iris = load_iris()
X = iris.data
y = iris.target
					
				
			
		




    拆分数据：





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
					
				
			
		




    训练模型：





		
		
			
			
Java
			
			model = LogisticRegression(multi_class='ovr', solver='liblinear')
model.fit(X_train, y_train)
			
				
					
				
					1
2
				
						model = LogisticRegression(multi_class='ovr', solver='liblinear')
model.fit(X_train, y_train)
					
				
			
		




    进行预测：





		
		
			
			
Java
			
			y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
			
				
					
				
					1
2
				
						y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
					
				
			
		



输出解释：
分类报告提供了每个类别的精确度、召回率和F1分数等指标，提供了模型在不同类别上的性能洞察。

结论
逻辑回归仍然是数据科学家工具箱中的基本工具，为二元和多类分类任务提供了简洁且有效的解决方案。通过理解其底层机制，特别是在多类情景下的一对多策略，实践者可以熟练地将逻辑回归应用于各种现实世界的问题。无论是预测客户流失、分类邮件还是识别物种，逻辑回归都为构建预测模型提供了坚实的基础。



关键词：逻辑回归, 二元分类, 多类分类, 一对多, 机器学习, 数据科学, Scikit-Learn, 预测建模, 决策边界, 分类中的概率