LDA与QDA-白红宇的个人博客

LDA与QDA

发布日期：2025-04-04 11:57:14 浏览次数：12 分类：精选文章

本文共 1971 字，大约阅读时间需要 6 分钟。

LDA与QDA的详细解析与Sklearn实践

在探索Python机器学习库功能的过程中，我研究了scikit-learn中的Linear Discriminant Analysis（LDA）和Quadratic Discriminant Analysis（QDA）方法。以下是我对这两种分类判别方法的理解与实践经验总结。

文章结构：

LDA的基本原理与实现

QDA的核心理论与扩展

Fisher判据的几何解释

LDA与Fisher判据的关系

多分类LDA的实现细节

Sklearn的基本使用方法与实例

与PCA的对比分析

LDA参数调优与实用技巧

1. LDA的基本原理与实现

1.1 定义与假设

LDA用于二分类问题，假设数据服从高斯分布，类别均值不同且方差相同。

判别函数线性，类似于wx + b的形式。

1.2 计算过程

均值向量 w: 通过最大似然估计得到，用于分类中心的计算。

类别协方差矩阵: 用于描述不同类别之间的散度。

realize方法常用svd和lsqr等。

1.3 Sklearn实现

from sklearn.discriminant_analysis import LinearDiscriminantAnalysislda = LinearDiscriminantAnalysis(solver='svd', store_covariance=True)y_pred = lda.fit(X, y).predict(X)

2. QDA的核心理论与扩展

2.1 扩展性

对于方差不同的数据，QDA引入二次判别函数，更灵活。

若方差相同，QDA退化为LDA。

2.2 判别函数形式

QDA判别函数 = \frac{w_1^T x + w_0 - w_0}{\sqrt{w_1^T w_1} + \sqrt{w_0^T w_0}}

2.3 Sklearn实现

from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysisqda = QuadraticDiscriminantAnalysis(store_covariances=True)y_pred = qda.fit(X, y).predict(X)

3. Fisher判据的几何解释

Fisher判据衡量平移不变性，最佳分类器应满足正交于特征子空间。

通过计算类内和类间距离，找到最优分类中心。

4. LDA与Fisher判据的关系

4.1 istorika

LDA在均值、方差相同的条件下，与Fisher判据相等。

在贝叶斯视角，LDA是Fisher判据的贝叶斯最优解。

4.2 实现方法

Solve方法选择svd、lsqr或eigen。

Fisher判据体现在误差函数的形式上，优化J值或改进。

5. 多分类下的LDA

5.1类内散度矩阵

Sw = sum of within-class covariance matrices

Sb = sum of between-class covariance matrices

5.2判别式函数

g(x) = Sw^{-1}w^T x - Sw^{-1}w0

5.3应用流程

计算子空间特征向量。

训练数据中的最优判别式。

6. Sklearn的基本使用方法

6.1基本使用示例

# LDAlda_classifier = LinearDiscriminantAnalysis(solver='svd', store_covariance=True)predict = lda_classifier.fit(X, y).predict(X)# QDAqda_classifier = QuadraticDiscinantAnalysis(store_covariances=True)predict = qda_classifier.fit(X, y).predict(X)

6.2维度归一化的影响

自动归一化可能提升小样本性能，需谨慎选择。

7. LDA与PCA的对比

7.1目标

LDA专注分类性能，关注判别特征。

PCA关注数据特征，降低维度。

7.2对比图示

IRIS数据用LDA和PCA降维对比，显示LDA效果更优。

8. 实用参数调优与建议

8.1rinkage使用

改善分类器鲁棒性，减少对噪声过敏。

auto 享受自动配置，无需手动参数调节。

8.2解算方法选择

根据数据大小和类型（如高维数据）选择svd或eigen。

总结

通过对LDA和QDA的深入理解，我掌握了它们在不同假设下的分类优势。Sklearn提供的便捷接口和灵活参数配置，使其在实际项目中应用更加高效。正确选择分类器和调优参数，可以显著提升模型性能。

上一篇：LDA基本介绍以及LDA源码分析(BLEI)

下一篇：ldap3 python 搜索组成员并检索他们的 sAMAcountName (Active Directory)

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！