数据挖掘于分析实例解析——异常值处理(插值补齐的方法)
发布日期:2021-05-07 05:53:26 浏览次数:15 分类:技术文章

本文共 769 字,大约阅读时间需要 2 分钟。

# -*- coding: utf-8 -*-"""Created on Thu Jan 18 11:25:38 2018@author: Xjl"""import pandas as pdfrom scipy.interpolate import lagrangeinputfile = './data/catering_sale.xls'  # 销量数据路径outputfile = './tmp/sales.xls'  # 输出数据路径data = pd.read_excel(inputfile)  # 数据路径的读取data.loc[(data['销量'] < 400) | (data['销量'] > 5000), '销量'] = None  # 过滤异常值 将其变为空值# 自定义列向量插值函数# S为列向量 n是为差值的位置 k为取前后的数据的个数 默认是5个def polyinterp_column(s, n, k=5):    y = s[list(range(n - k, n)) + list(range(n + 1, n + 1 + k))]    print('y=', y)    y = y[y.notnull()]  # 剔除空值    return lagrange(y.index, list(y))(n)  # 插值并返回结果# 遍历列数数据中的每一个数字for i in data.columns:    for j in range(len(data)):        if (data[i].isnull())[j]:            data.loc[j, [i]] = polyinterp_column(data[i], j)data.to_excel(outputfile)

 

上一篇:数据挖掘于分析实例解析——数据规范化处理
下一篇:数据挖掘于分析实例解析——数据特征分析

发表评论

最新留言

哈哈,博客排版真的漂亮呢~
[***.90.31.176]2025年04月08日 17时16分03秒