1.概述

贝叶斯分类是机器学习分类算法中的一类，此类算法的理论依据为“贝叶斯定理”和“特征条件独立”，而朴素贝叶斯分类（Naive Bayes Classifier, NBC）是贝叶斯分类中最简单的一种，也是常见的一种分类方法。

优点：其相比于决策树分类有着坚实的数学基础以及稳定的分类效率（对不同类型数据集不会呈现出太大的差异），同时NBC所需估计的参数较少，对缺失数据不敏感，算法简单，理论上与其他分类方法相比具有最小的误差率。

缺点：假设属性之间相互独立（在实际应用中往往不成立，属性越多，分类效果越差）

2.算法原理

设有样本数据集  ，对应样本数据的特征属性集为，类变量为，即

可以分为m个类别。其中相互独立且随机，则的，的后验概率，由朴素贝叶斯算法可得，后验概率可以由先验概率、证据、类条件概率计算出：

朴素贝叶斯基于各特征之间相互独立，在给定类别为  的情况下，上式可以进一步表示为下式：

由以上两式可以计算出后验概率为：

由于  的大小是固定不变的，因此在比较后验概率时，只比较上式的分子部分即可。因此可以得到一个样本数据属于类别  的朴素贝叶斯计算如下图所示：

3.假设特征条件独立的原因

案例背景：

女生择偶{嫁，不嫁}

--> 男生衡量特征{
长相（帅，不帅），性格（很好，好，不好），身高（高，中，矮），进取心（上进，不上进）}

原因一：

要想计算出左侧的概率，那么就需要计算出右侧的概率，若特征之间不相互独立，右侧的概率就需要在概率空间中进行统计。以案例背景出发，共4个特征，那么特征联合概率分布总共是4维空间（特征空间），总数为2×3×3×2=36个。而现实中的特征往往非常多，特征的取值也非常多，此时，若想通过统计的方式计算右侧部分的客观概率变的几乎不可能。

原因二：

若假设特征之间并不相互独立，则右侧的概率需要在特征空间中进行统计，那么，由于数据的稀疏性，很容易出现某个概率为0的情况，因此，这是不合适的。