
python自然语言处理-几种常见的平滑算法
发布日期:2021-05-06 08:42:11
浏览次数:38
分类:精选文章
本文共 377 字,大约阅读时间需要 1 分钟。
几种常见的平滑算法
在计算语言模型的过程中,对于句子中的每一个字符或者词都需要一个非零的概率值,因为一旦存在一个概率为 0 的结果,那么整个计算公式的结果都为 0,这种问题我们叫做数据匮乏(稀疏),所以必须分配给所有可能出现的字符串一个非 0 的概率值来避免这种错误的发生。
举个例子,当我们需要计算一个 sentence 我 喜欢 看电影 的概率时:
P(我, 喜欢, 看电影) = P(我) * P(喜欢 | 我) * P(看电影 | 喜欢)
如果在语料库中 喜欢 的后面并没有出现过 看电影,也就意味着 P(看电影 | 喜欢) = 0,直接导致了 我 喜欢 看电影 的概率 为0。
平滑技术就是用来解决这类 0 概率的问题,为了产生更加准确的概率来调整最大似然估计的一种技术,平滑的处理思想是 “劫富济贫” ,即提高低概率,降低高概率。
数据预处理
发表评论
最新留言
表示我来过!
[***.240.166.169]2025年04月25日 10时24分39秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Linux 内核kobject 缺省属性
2023-02-01
Linux 内核交互图
2023-02-01
linux 内核定时器精度_LWN 文章合集之 “内核定时器”
2023-02-01
Linux 内核有soft rdma吗?
2023-02-01
Linux 内核突破 4000 万行代码:创新与挑战并存的里程碑
2023-02-01
Linux 几种文件传输方式
2023-02-01
Linux 创建用户和工作组
2023-02-01
Linux 创建(删除)连接命令 ln -s 软连接
2023-02-01
Linux 利用lsof命令恢复删除的文件
2023-02-01
Linux 利用XShell隧道通过跳板机连接内网服务器
2023-02-01
linux 动态增加inode,如何在Linux中增加磁盘inode号
2023-02-01
linux 单机版安装5.7
2023-02-01
Linux 卸载JDK并安装新版本JDK (rpm,tar)
2023-02-01
Linux 卸载mysql-libs包出现问题如何解决
2023-02-01
linux 卸载、安装mysql
2023-02-01
Linux 压缩、解压和打包命令
2023-02-01
linux 发现交换文件 ".swp"
2023-02-01
Linux 命令
2023-02-01