Prometheus监控介绍

发布日期：2021-05-15 01:15:33 浏览次数：31 分类：精选文章

本文共 3036 字，大约阅读时间需要 10 分钟。

Prometheus简介与特点分析

Prometheus是一款开源的系统监控和报警工具，已加入CNCF基金会，是 Kubernetes 之后第二个加入基金会的项目。在容器化环境中，Prometheus常与 Kubernetes 结合使用，负责监控和报警。其独特的“拉取”（Pull）模型使其成为时序数据库领域的重要解决方案。本文将深入分析Prometheus的架构、工作原理以及其在监控中的优势与局限性。

Prometheus的基本原理

Prometheus通过HTTP协议周期性拉取（Pull）目标组件的状态数据。这种设计的优势在于，无需依赖被监控端的SDK或其他集成工具，即使是虚拟化环境下的VM或Docker容器，只需提供HTTP接口即可接入监控系统。这种“无侵入式”监控方式使其在复杂环境中表现优异。

白盒与黑盒监控

Prometheus支持两种监控方式：

白盒监控：被监控系统自身生成指标数据，监控系统仅需拉取即可获取实时状态。

黑盒监控：对目标系统无任何侵入，通过旁观测的方式获取状态数据。

Prometheus主要采用白盒监控方式，通过三种主要途径从目标上抓取指标数据：

Exporters：暴露现有应用程序或服务的指标数据。

Instrumentation：通过客户端库暴露应用程序内部的指标数据。

Pushgateway：接收短期作业生成的指标数据并上报给Prometheus。

Prometheus与时序数据库的关系

虽然Prometheus本质上是一款时序数据库，但其功能远不止如此。它专注于目标（Target）监控，性能足够支撑万级规模的集群。其核心优势在于“拉取”模型，通过周期性抓取数据，避免了依赖被监控端的“推送”（Push）模型，实现了对指标数据的主动管理。

拉取模型的优势体现在以下几个方面：

灵活性：配置指标采集频率和存储路径，适合多种监控场景。

高效性：通过主动拉取，确保指标数据的及时性和完整性。

Prometheus的特点

多维度数据模型：支持对指标数据进行多维度聚合和切割，通过标签（Labels）为指标添加元数据，支持灵活的查询。

灵活的查询语言（PromQL）：支持复杂的数据聚合操作，如加法、乘法等，提供实时查询功能。

本地部署：无需依赖外部分布式存储，可直接在本地部署，适合小型监控场景。

高效存储：每个样本数据占3.5字节，300万时间序列、30秒间隔，保留60天数据需约200GB存储空间。

动态目标发现：支持通过服务发现（Service Discovery）动态发现待监控目标，尤其在容器化环境中表现突出。

Prometheus的组件架构

Prometheus的生态系统主要包括以下组件：

Prometheus Server：负责采集和存储时间序列数据，包含三个主要部分：

Retrieval：从目标主机拉取监控指标数据。

Storage：将采集到的数据存储到本地磁盘。

PromQL：提供查询语言支持，允许用户实时查询和聚合数据。

Client Library：用于检测应用程序代码，通过客户端库暴露指标数据。

Exporters：负责将应用程序或服务的指标数据暴露给Prometheus Server。

Alertmanager：负责处理告警通知，支持邮件、微信、钉钉等多种告警接收方式。

Pushgateway：接收短期作业生成的指标数据并上报给Prometheus Server。

Service Discovery：动态发现待监控目标，支持静态配置和动态更新。

Data Visualization：通过内置Web UI和Grafana等工具提供可视化界面。

Prometheus的工作流程

Prometheus Server按照以下步骤处理监控数据：

定期从目标主机（Target）拉取监控指标数据，通过静态配置或服务发现完成目标发现。

将采集到的指标数据存储到本地磁盘或数据库。

根据预设的告警规则，触发报警通知，Alertmanager负责将告警信息发送给指定接收方。

提供PromQL查询语言支持，用户可通过Web UI进行实时查询和数据聚合。

Grafana等可视化工具可接入Prometheus数据源，提供图形化的监控报表。

Prometheus的局限性

尽管Prometheus是一款强大的监控工具，但仍有一些局限性：

仅针对指标数据：不适合存储事件日志等非时序数据。

短期数据存储：默认仅存储15天数据，建议对长期数据采用远程存储（如InfluxDB）。

集群机制成熟度：虽然具有一定支持，但与其他分布式存储系统相比仍有不足。

Prometheus的数据模型

Prometheus以键值对存储时序数据，主要包含以下要素：

Metric：表示被监控指标，如CPU使用率、内存占用等。

Labels：通过元数据为指标添加维度信息，支持过滤和聚合。

Time Series：时间序列数据由时间戳和对应的指标值组成。

Metric Retention：默认保留15天数据，支持通过配置扩展或向外输出长期数据。

指标类型

Prometheus支持四种指标类型：

Counter：用于统计单调递增的数据，如HTTP请求数、错误总数。

Gauge：适用于具有起伏特性的指标，如CPU使用率、内存使用率。

Histogram：用于统计分布数据，支持分位数计算和平均值求取。

Summary：聚合样本数据，计算总和、最大值和最小值等统计信息。

作业与实例

Instance：指网络端点，能够接收Prometheus Server的Scrape操作。

Job：将多个Instance组合为一个监控任务，常用于群集环境下的负载均衡。

PromQL查询语言

PromQL支持两种向量操作：

Instant Vector：表示最近一次时间戳的数据。

Range Vector：表示指定时间范围内的所有时间戳数据。

Prometheus的查询功能强大，支持复杂的聚合操作，例如：

sum(rate{job="prometheus"})

Instrumentation

Prometheus通过客户端库（Instrumentation）为应用程序提供指标暴露功能。开发者可通过配置或代码注入将应用程序内部的性能数据（如CPU、内存、HTTP请求等）暴露给Prometheus Server。

Exporters

Exporters作为Prometheus的重要组件，负责从应用程序或服务中采集指标数据并转换为Prometheus格式。Prometheus支持多种Exporters，例如：

HTTP Exporter：通过HTTP接口暴露指标数据。

TCP Exporter：通过TCP协议采集指标数据。

JMX Exporter：从Java应用程序采集JMX指标。

Alerts

Prometheus通过告警机制向用户发送异常值通知。其告警机制包括：

Prometheus Server：根据预设规则生成告警指示。

Alertmanager：负责告警的路由和发送，支持多种接收方式，如邮件、微信、钉钉、Slack等。

通过以上介绍，可以清晰地了解Prometheus的功能、架构和使用场景。Prometheus作为一款强大的监控工具，广泛应用于容器化、云计算和高性能计算等领域，为用户提供了灵活且高效的监控解决方案。

上一篇：Zabbix维护期间不报警

下一篇：Prometheus基于文件的服务发现

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！