python3__机器学习__朴素贝叶斯分类
发布日期:2021-07-01 02:32:16 浏览次数:3 分类:技术文章

本文共 850 字,大约阅读时间需要 2 分钟。

目录


1.概述

贝叶斯分类是机器学习分类算法中的一类,此类算法的理论依据为“贝叶斯定理”和“特征条件独立”,而朴素贝叶斯分类(Naive Bayes Classifier, NBC)是贝叶斯分类中最简单的一种,也是常见的一种分类方法。

优点:其相比于决策树分类有着坚实的数学基础以及稳定的分类效率(对不同类型数据集不会呈现出太大的差异),同时NBC所需估计的参数较少,对缺失数据不敏感,算法简单,理论上与其他分类方法相比具有最小的误差率

缺点:假设属性之间相互独立(在实际应用中往往不成立,属性越多,分类效果越差)

2.算法原理

设有样本数据集  ,对应样本数据的特征属性集为,类变量为,即

可以分为m个类别。其中相互独立且随机,则的后验概率,由朴素贝叶斯算法可得,后验概率可以由先验概率、证据、类条件概率计算出:

 朴素贝叶斯基于各特征之间相互独立,在给定类别为  的情况下,上式可以进一步表示为下式:

 由以上两式可以计算出后验概率为:

由于  的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别  的朴素贝叶斯计算如下图所示: 

3.假设特征条件独立的原因

案例背景

女生择偶{嫁,不嫁}

--> 男生衡量特征{

长相(帅,不帅),性格(很好,好,不好),身高(高,中,矮),进取心(上进,不上进)}

原因一

要想计算出左侧的概率,那么就需要计算出右侧的概率,若特征之间不相互独立,右侧的概率就需要在概率空间中进行统计。以案例背景出发,共4个特征,那么特征联合概率分布总共是4维空间(特征空间),总数为2×3×3×2=36个。而现实中的特征往往非常多,特征的取值也非常多,此时,若想通过统计的方式计算右侧部分的客观概率变的几乎不可能。

原因二

若假设特征之间并不相互独立,则右侧的概率需要在特征空间中进行统计,那么,由于数据的稀疏性,很容易出现某个概率为0的情况,因此,这是不合适的。

4.案例解析

以上链接所给案例解答过程较为详细,可进行参考。

转载地址:https://maxin.blog.csdn.net/article/details/95071537 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:windows xp系统本地磁盘图标发生变化——5种解决方法
下一篇:机器学习 | 分类 —— 决策树:分支标准(熵/Gini系数)

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年05月03日 18时54分29秒