数据挖掘于分析实例解析——数据特征分析
发布日期:2021-05-07 05:53:25 浏览次数:10 分类:原创文章

本文共 1713 字,大约阅读时间需要 5 分钟。

数据的特征分析:

定量的分析:选择数组和组宽做频率分析是主要的问题。一般按照以下步骤进行;1求解极差2 决定组距和数组3决定分布点4列出频率分布表 5绘制频率直方图。

定性行的分析:

# -*- coding: utf-8 -*-import pandas as pdcatering_sale = './data/catering_sale.xls'data = pd.read_excel(catering_sale, index_col = u'日期')print(data.describe(),'\n')print('total: ',len(data))data = data[(data[u'销量']>400) & (data[u'销量']<5000)]statistics = data.describe()#保存的是基本的统计量 最大值 最小值 常见参数s = statisticss.loc['range'] = s.loc['max'] - s.loc['min']#求解极差s.loc['var'] = s.loc['std'] / s.loc['mean']#求解变异系数s.loc['dis'] = s.loc['75%'] - s.loc['25%']##求解四分位间距 print(statistics)

结果:

count   200.000000mean   2755.214700std     751.029772min      22.00000025%            NaN50%            NaN75%            NaNmax    9106.440000 total:  201                销量count   195.000000mean   2744.595385std     424.739407min     865.00000025%    2460.60000050%    2655.90000075%    3023.200000max    4065.200000range  3200.200000var       0.154755dis     562.600000
# -*- coding: utf-8 -*-# 帕累托分析import pandas as pdimport matplotlib.pyplot as plt# 显示中文字体plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号# pd读取文件dish_profit = './data/catering_dish_profit.xls'data = pd.read_excel(dish_profit, index_col=u'菜品名')data = data[u'盈利'].copy()data.sort_index(ascending=False)plt.figure()data.plot(kind='bar')  # 柱状图plt.ylabel(u'盈利(元)')p = 1.0 * data.cumsum() / data.sum()p.plot(color='r', secondary_y=True, style='-o', linewidth=2)  # 线# 添加注释,即85%处的标记。这里包括了指定箭头样式。plt.annotate(format(p[6], '.4%'), \             xy=(6, p[6]), \             xytext=(6 * 0.9, p[6] * 0.9), \             arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2"))plt.ylabel(u'盈利(比例)')plt.show()

上一篇:数据挖掘于分析实例解析——异常值处理(插值补齐的方法)
下一篇:数据挖掘于分析实例解析——异常值分析

发表评论

最新留言

路过,博主的博客真漂亮。。
[***.116.15.85]2025年04月12日 03时28分04秒