Datawhale 零基础入门数据挖掘-Task3 特征工程

三、特征工程目标

赛题：零基础入门数据挖掘 - 二手车交易价格预测

地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX

常见的特征工程包括：

特征归一化/标准化：
- 标准化（转换为标准正态分布）；
- 归一化（抓换到 [0,1] 区间）；
- 针对幂律分布，可以采用公式： $log(\frac{1+x}{1+median})$

缺失值处理：
- 不处理（针对类似 XGBoost 等树模型）；
- 删除（缺失数据太多）；
- 插值补全，包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等；
- 分箱，缺失值一个箱；

特征筛选
- 过滤式（filter）：先对数据进行特征选择，然后在训练学习器，常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法；
- 包裹式（wrapper）：直接把最终将要使用的学习器的性能作为特征子集的评价准则，常见方法有 LVM（Las Vegas Wrapper）；
- 嵌入式（embedding）：结合过滤式和包裹式，学习器训练过程中自动进行了特征选择，常见的有 lasso 回归；

为什么要进行数据分桶？将原来连续的数据分类成范围数据，将连续变为离散的，可以加快内积运算速度，能够帮助排除极端值的影响，同时在线性模型中引入非线性，能够提高泛化能力，增强拟合效果。

对哪些数据进行数据分桶？数据连续且变化复杂，不利于分析数据的效果，数据明显不符合正态分布且转换后仍然不符合正态分布，数据极端值较多，如果都删除会降低训练数据的泛化能力的情况，可以考虑采用数据分桶。

转载地址：https://blog.csdn.net/YYYYYJY/article/details/115875511 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：认识区块链

下一篇：2021-04-16

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！