
朴素贝叶斯分类-理论篇-如何通过概率解决分类问题
准备阶段:获取数据集,确定特征和目标分类。 训练阶段:计算各类别概率 ( P(Ci) ) 和条件概率 ( P(Fj|Ci) )。 预测阶段:给定新数据,计算其所属各类别的综合概率,选择概率最大者。 先验概率:( P(C1) = P(C2) = 0.5 ) 条件概率: 综合概率:
发布日期:2021-05-09 01:41:52
浏览次数:21
分类:精选文章
本文共 1144 字,大约阅读时间需要 3 分钟。
贝叶斯定理与朴素贝叶斯分类
概率相关概念
概率是描述事件发生可能性大小的数学工具。用 ( P(x) ) 表示事件 ( x ) 发生的概率。随机变量根据取值特性可分为离散型和连续型。联合概率 ( P(x, y) ) 表示事件 ( x ) 和 ( y ) 同时发生的概率。条件概率 ( P(x|y) ) 表示在事件 ( y ) 发生条件下,事件 ( x ) 发生的概率。边缘概率是通过联合概率在某一变量上求和或积分得到的。
常见离散型分布包括伯努利分布、多项式分布、泊松分布等。连续型分布有正态分布、均匀分布、指数分布等。正态分布数学公式为:[ P(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} ]
数学期望是各结果的加权平均,方差衡量数据偏离均值的程度。
贝叶斯定理
贝叶斯定理描述了后验概率的计算公式:[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} ]其中,( P(B|A) ) 是先验概率,( P(A) ) 是边缘概率,( P(B) ) 是边缘概率。
在分类问题中,贝叶斯定理可以简化为:[ P(C|F) = \frac{P(F|C)P(C)}{P(F)} ]其中,( P(F|C) ) 是条件概率,( P(C) ) 是先验概率。
朴素贝叶斯
朴素贝叶斯假设各特征间相互独立,分类计算可简化为:[ P(C|F) = P(F|C)P(C) ]最终分类基于 ( P(C|F) ) 的大小。
处理分类问题的一般步骤
实际案例:性别分类
数据特征:
- 身高:高(F1)
- 体重:中(F2)
- 鞋码:中(F3)
- 性别:男(C1)和女(C2)
计算步骤:
- ( P(F1|C1) = 0.5 ),( P(F2|C1) = 0.5 ),( P(F3|C1) = 0.25 )
- ( P(F1|C2) = 0 ),( P(F2|C2) = 0.5 ),( P(F3|C2) = 0.5 )
- ( P(C1|F) = 0.25 \times 0.25 \times 0.125 = 0.0078125 )
- ( P(C2|F) = 0 )
结果:数据特征偏向男性,归类为 ( C1 )。
总结
贝叶斯定理将分类转化为概率计算,朴素贝叶斯假设特征独立,简化了计算。通过数据特征的综合概率,准确分类是关键。
发表评论
最新留言
哈哈,博客排版真的漂亮呢~
[***.90.31.176]2025年05月07日 04时38分12秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
linux crw权限,linux中crw brw lrw等等文件属性是什么
2023-01-31
linux curl 调用api
2023-01-31
Linux C(day01)
2023-01-31
linux debian系统中利用sysv-rc-conf启动服务
2023-01-31
linux deb文件安装
2023-01-31
Linux Dev Enviroment
2023-01-31
linux df -h卡成狗
2023-02-01
Linux df du 命令
2023-02-01
Linux DHCP服务器
2023-02-01
Linux DNS服务器子域授权、转发器和转发域配置实例(三)
2023-02-01
Linux Docker 部署 Jenkins 详解教程
2023-02-01
Linux Driver 入门 - Allocating Device Numbers
2023-02-01
LINUX du/df/free查看内存/磁盘剩余空间
2023-02-01
linux dump 文件在哪
2023-02-01
linux echo设置颜色
2023-02-01
LINUX errno
2023-02-01
Linux find 匹配文件内容
2023-02-01
Linux find命令使用详解
2023-02-01
Linux firewalld防火墙常用
2023-02-01
Linux free命令详解(转)
2023-02-01