
统计更新---update statistics
对主索引列及其精确匹配条件字段采用高模式。 对高频联结列和条件字段采用高模式。 对非重点字段和不常访问列采用中等模式。 对小数据表(不超过1000行)可选用低模式。
发布日期:2021-05-28 05:09:54
浏览次数:21
分类:精选文章
本文共 870 字,大约阅读时间需要 2 分钟。
数据分布和准确分辨率是update statistics high|medium中两个关键资源,以下从技术实现方面详细说明。
首先,数据分布的工作原理是通过对数据列或多列中的实际数据进行抽样,将抽样数据编入一系列的箱子中。这些箱子的数量和每个箱子所包含的准确数据范围,主要由用于准确分辨的值决定。具体操作可通过以下命令启动:
dbschema -d dbname -hd tabname
如图所示,系统会展现多个箱子。其中箱子的具体分布及其关联的数据规则遵循以下规律:
- 箱子数目与每个箱子所包含数值范围由输入给定值决定。
- 每个箱子的大小或记录数对应于表格中实际数据的分布情况。
- 箱子分布完全依赖于高速缓存的支持,确保统计信息的准确性和效率。
数据分辨率的设置通过resolutions参数实现,该参数决定每个箱子中数据的分布程度。具体规则如下:
- 输入值越大,每个箱子中的记录越少,箱子总数越密集。
- 输入值越小,每个箱子中的记录越多,箱子总数越稀疏。
- 默认设置为0.05(即0.5%),这意味着统计信息生成时会占用较多资源。
- 建议根据业务需求和数据特点进行调整,避免不必要的资源浪费。
在高级模式中,分布的构建基于全表扫描和排序操作,确保统计信息的准确性。这种方式简单直观,但可能占用较多计算资源。相比之下,中等模式则通过随机采样来生成分布信息,样本数和准确度需通过confidence值来确定。该值的范围在0.8到0.95之间,值越高表示对结果更具信心。
关于环境变量设置,DBUPSPACE变量可用于限制生成分布时的磁盘空间使用量。建议合理设置该值,以平衡资源消耗和统计效率。注意,默认值通常已足够,无需特殊处理,除非遇到显著性能问题。
在实际应用中,可采用以下统计更新习惯:
这样的设定方式既保证了统计信息的准确性,也在一定程度上减少了性能开销,需根据具体场景进行权衡。
发表评论
最新留言
关注你微信了!
[***.104.42.241]2025年04月26日 16时29分05秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
ElasticSearch - 基础概念,以及和 mysql 的对比
2023-01-24
ElasticSearch - 索引库和文档相关命令操作
2023-01-24
elasticsearch 7.7.0 单节点配置x-pack
2023-01-24
ElasticSearch 中 REST API 详解
2023-01-24
Hot100之回溯算法
2023-01-24
Elasticsearch 时区问题
2023-01-24
Elasticsearch 索引字段类型为text,添加keyword类型操作
2023-01-24
Elasticsearch(四) es出现的问题:填坑
2023-01-24
elasticsearch-5.1.1 安装的问题
2023-01-24
Elasticsearch7.3.1启动指定JDK11
2023-01-24
Elasticsearch下载安装
2023-01-24
Elasticsearch入门教程(Elasticsearch7,linux)
2023-01-24
elasticsearch的helpers.bulk和es_client.bulk的用法
2023-01-24