朴素贝叶斯分类-理论篇-如何通过概率解决分类问题
发布日期:2021-05-09 01:41:52 浏览次数:21 分类:精选文章

本文共 1144 字,大约阅读时间需要 3 分钟。

贝叶斯定理与朴素贝叶斯分类

概率相关概念

概率是描述事件发生可能性大小的数学工具。用 ( P(x) ) 表示事件 ( x ) 发生的概率。随机变量根据取值特性可分为离散型和连续型。联合概率 ( P(x, y) ) 表示事件 ( x ) 和 ( y ) 同时发生的概率。条件概率 ( P(x|y) ) 表示在事件 ( y ) 发生条件下,事件 ( x ) 发生的概率。边缘概率是通过联合概率在某一变量上求和或积分得到的。

常见离散型分布包括伯努利分布、多项式分布、泊松分布等。连续型分布有正态分布、均匀分布、指数分布等。正态分布数学公式为:[ P(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} ]

数学期望是各结果的加权平均,方差衡量数据偏离均值的程度。

贝叶斯定理

贝叶斯定理描述了后验概率的计算公式:[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} ]其中,( P(B|A) ) 是先验概率,( P(A) ) 是边缘概率,( P(B) ) 是边缘概率。

在分类问题中,贝叶斯定理可以简化为:[ P(C|F) = \frac{P(F|C)P(C)}{P(F)} ]其中,( P(F|C) ) 是条件概率,( P(C) ) 是先验概率。

朴素贝叶斯

朴素贝叶斯假设各特征间相互独立,分类计算可简化为:[ P(C|F) = P(F|C)P(C) ]最终分类基于 ( P(C|F) ) 的大小。

处理分类问题的一般步骤

  • 准备阶段:获取数据集,确定特征和目标分类。
  • 训练阶段:计算各类别概率 ( P(Ci) ) 和条件概率 ( P(Fj|Ci) )。
  • 预测阶段:给定新数据,计算其所属各类别的综合概率,选择概率最大者。
  • 实际案例:性别分类

    数据特征

    • 身高:高(F1)
    • 体重:中(F2)
    • 鞋码:中(F3)
    • 性别:男(C1)和女(C2)

    计算步骤

  • 先验概率:( P(C1) = P(C2) = 0.5 )
  • 条件概率
    • ( P(F1|C1) = 0.5 ),( P(F2|C1) = 0.5 ),( P(F3|C1) = 0.25 )
    • ( P(F1|C2) = 0 ),( P(F2|C2) = 0.5 ),( P(F3|C2) = 0.5 )
  • 综合概率
    • ( P(C1|F) = 0.25 \times 0.25 \times 0.125 = 0.0078125 )
    • ( P(C2|F) = 0 )
  • 结果:数据特征偏向男性,归类为 ( C1 )。

    总结

    贝叶斯定理将分类转化为概率计算,朴素贝叶斯假设特征独立,简化了计算。通过数据特征的综合概率,准确分类是关键。

    上一篇:计算机二进制中的原码,反码,补码
    下一篇:决策树算法-实战篇-鸢尾花及波士顿房价预测

    发表评论

    最新留言

    哈哈,博客排版真的漂亮呢~
    [***.90.31.176]2025年05月07日 04时38分12秒