
数据挖掘于分析实例解析——异常值处理(插值补齐的方法)
发布日期:2021-05-07 05:53:26
浏览次数:15
分类:技术文章
本文共 769 字,大约阅读时间需要 2 分钟。
# -*- coding: utf-8 -*-"""Created on Thu Jan 18 11:25:38 2018@author: Xjl"""import pandas as pdfrom scipy.interpolate import lagrangeinputfile = './data/catering_sale.xls' # 销量数据路径outputfile = './tmp/sales.xls' # 输出数据路径data = pd.read_excel(inputfile) # 数据路径的读取data.loc[(data['销量'] < 400) | (data['销量'] > 5000), '销量'] = None # 过滤异常值 将其变为空值# 自定义列向量插值函数# S为列向量 n是为差值的位置 k为取前后的数据的个数 默认是5个def polyinterp_column(s, n, k=5): y = s[list(range(n - k, n)) + list(range(n + 1, n + 1 + k))] print('y=', y) y = y[y.notnull()] # 剔除空值 return lagrange(y.index, list(y))(n) # 插值并返回结果# 遍历列数数据中的每一个数字for i in data.columns: for j in range(len(data)): if (data[i].isnull())[j]: data.loc[j, [i]] = polyinterp_column(data[i], j)data.to_excel(outputfile)
发表评论
最新留言
哈哈,博客排版真的漂亮呢~
[***.90.31.176]2025年04月08日 17时16分03秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
二分查找与插入排序的结合使用
2019-03-04
71 简化路径(模拟、栈)
2019-03-04
892 三维形体的表面积(分析)
2019-03-04
40. 组合总和 II(dfs、set去重)
2019-03-04
16 最接近的三数之和(排序、双指针)
2019-03-04
1333 餐厅过滤器(treemap映射)
2019-03-04
python中的all函数
2019-03-04
1137 第 N 个泰波那契数(迭代、记忆性递归)
2019-03-04
279 完全平方数(dfs)
2019-03-04
279 完全平方数(bfs)
2019-03-04
865 具有所有最深结点的最小子树(递归)
2019-03-04
738 单调递增的数字(找出逆序的位置)
2019-03-04
410 分割数组的最大值(二分查找、动态规划)
2019-03-04
875 爱吃香蕉的珂珂(二分查找)
2019-03-04
693 交替位二进制数(位运算)
2019-03-04
450 删除二叉搜索树中的节点(递归删除节点)
2019-03-04
769 最多能完成排序的块(分析)
2019-03-04
542 01 矩阵(单源bfs、多源bfs)
2019-03-04
1679 K 和数对的最大数目(使用字典对余数分组、排序 + 双指针)
2019-03-04
python测试代码耗时
2019-03-04