
[一起面试AI]NO.10 什么是数据不平衡问题,应该如何解决
发布日期:2021-05-09 06:18:10
浏览次数:3
分类:博客文章
本文共 452 字,大约阅读时间需要 1 分钟。
数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断「失误严重」,准确率虚高。
常见的解决不平衡问题的方法如下。
-
「数据采样」
数据采样分为上采样和下采样,上采样是将少量的数据通过重复复制使得各类别比例均衡,不过很容易导致过拟合问题,所以需要在新生成的数据中加入随机扰动。
下采样则相反,下采样是从多数类别中筛选出一部分从而使得各类别数据比例维持在正常水平,但容易丢失比较重要的信息,所以应该多次随机下采样。
-
「数据合成」是利用已有样本的特征相似性生成更多的样本。
-
「加权」是通过不同类别的错误施加不同的权重惩罚,使得ML时更侧重样本较少并容易出错的样本。
-
「一分类」
当正负样本比例失衡时候,可以利用One-class SVM,该算法利用「高斯核函数」将样本空间映射到「核空间」,在核空间找到一个包含「所有数据」的高维球体。如果测试数据位于这个高维球体之「中」,则归为多数类,否则为少数类。
❝
微信搜索:我们都是码农,点个关注不迷路啦!
❞
转载地址:https://www.cnblogs.com/sabai/p/12790471.html 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
能坚持,总会有不一样的收获!
[***.219.124.196]2023年09月22日 02时54分49秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Android stdio—创建项目
2019-03-08
查看APP的MD5值
2019-03-08
解决Chrome插件安装时程序包无效:"CRX_HEADER_INVALID"
2019-03-08
论文修改2—二级标题黑色小方格的处理
2019-03-08
论文修改1—word自动编号
2019-03-08
Pycharm2019使用
2019-03-08
Flask框架学习(1)——Hello World!
2019-03-08
APP渗透——安装包签名和证书
2019-03-08
Pycharm一直报No module named 'requests'
2019-03-08
putty提示Access denied
2019-03-08
vue-cli如何解决跨域?
2019-03-08
记一次vue--NavMenu--左侧导航栏动画效果折腾记
2019-03-08
vue-cli-+-element-ui-树形表格(多级表格折腾小计)
2019-03-08
vueCli-封装Echarts图表组件
2019-03-08
vue-spa-单页面应用跳转打开新的页面
2019-03-08
stl源码分析——map/multimap
2019-03-08
Effective C++条款06:若不想使用编译器自动生成的函数,就该明确拒绝
2019-03-08
Effective C++条款11:在operator=中处理“自我赋值”
2019-03-08
Effective C++条款15:在资源管理类中提供对原始资源的访问
2019-03-08