本文共 850 字,大约阅读时间需要 2 分钟。
目录
1.概述
贝叶斯分类是机器学习分类算法中的一类,此类算法的理论依据为“贝叶斯定理”和“特征条件独立”,而朴素贝叶斯分类(Naive Bayes Classifier, NBC)是贝叶斯分类中最简单的一种,也是常见的一种分类方法。
优点:其相比于决策树分类有着坚实的数学基础以及稳定的分类效率(对不同类型数据集不会呈现出太大的差异),同时NBC所需估计的参数较少,对缺失数据不敏感,算法简单,理论上与其他分类方法相比具有最小的误差率。
缺点:假设属性之间相互独立(在实际应用中往往不成立,属性越多,分类效果越差)
2.算法原理
设有样本数据集 ,对应样本数据的特征属性集为,类变量为,即
可以分为m个类别。其中相互独立且随机,则的,的后验概率,由朴素贝叶斯算法可得,后验概率可以由先验概率、证据、类条件概率计算出:
朴素贝叶斯基于各特征之间相互独立,在给定类别为 的情况下,上式可以进一步表示为下式:
由以上两式可以计算出后验概率为:
由于 的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别 的朴素贝叶斯计算如下图所示:
3.假设特征条件独立的原因
案例背景:
女生择偶{嫁,不嫁}
--> 男生衡量特征{
长相(帅,不帅),性格(很好,好,不好),身高(高,中,矮),进取心(上进,不上进)}原因一:
要想计算出左侧的概率,那么就需要计算出右侧的概率,若特征之间不相互独立,右侧的概率就需要在概率空间中进行统计。以案例背景出发,共4个特征,那么特征联合概率分布总共是4维空间(特征空间),总数为2×3×3×2=36个。而现实中的特征往往非常多,特征的取值也非常多,此时,若想通过统计的方式计算右侧部分的客观概率变的几乎不可能。
原因二:
若假设特征之间并不相互独立,则右侧的概率需要在特征空间中进行统计,那么,由于数据的稀疏性,很容易出现某个概率为0的情况,因此,这是不合适的。
4.案例解析
以上链接所给案例解答过程较为详细,可进行参考。
转载地址:https://maxin.blog.csdn.net/article/details/95071537 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!