# 1 产品概述

云监控服务是一种为云平台提供的基础监控服务,能够对计算、存储、网络和数据库等基础资源的性能指标、运行状态和周期容量进行实时监控和告警,帮助用户及时发现和解决问题,保障业务的稳定性和可用性。

# 1.1 产品概述

云监控服务的主要功能包括:

  1. 自动监控:用户无需额外开通,只要在云平台上创建资源,云监控服务就会自动启动,用户可以在云监控服务的控制台上查看资源的监控数据和告警信息。
  2. 多维度监控:云监控服务支持对不同类型和层级的资源进行监控,包括云主机、云硬盘、虚拟网络、负载均衡、数据库等,以及应用层、主机层、网络层等,用户可以根据自己的需求选择监控维度和指标。
  3. 灵活配置告警策略:用户可以根据自己的业务场景和阈值设置告警策略,对监控指标进行实时监测,一旦发生异常,云监控服务会通过短信、邮件、微信等多种方式通知用户,让用户能够及时响应和处理。
  4. 监控面板:除了各类资源的监控选项卡,用户也可以在云监控服务的控制台上创建和管理监控面板,将自己关注的监控指标和图表集中展示,方便用户总览和分析资源的监控情况。
  5. 容量管理:用户可以通过云监控服务对资源的周期使用容量进行收集、存储、查询和分析,从而实现对资源的行为和状态的全面监控,并进一步对资源扩缩容和成本控制进行决策。

# 1.2 业务价值

云监控服务为用户提供了以下业务价值:

  1. 提升业务可靠性:通过对资源的全方位监控和及时告警,用户可以快速发现和定位问题,避免或减少业务中断和损失,提升业务的可靠性和用户满意度。
  2. 优化资源利用率:通过对资源的性能和容量的监控和分析,用户可以根据实际需求和负载情况,合理调整资源的配置和规模,避免资源的浪费和不足,优化资源的利用率和成本效益。
  3. 支持业务创新:通过对资源的日志和事件的监控和分析,用户可以深入了解资源的行为和状态,发现业务的优势和不足,从而支持业务的创新和改进。

# 1.3 使用限制

云监控服务的使用约束包括:

  1. 用户必须在云平台上注册并登录,才能使用云监控服务。
  2. 用户必须在云平台上创建和管理资源,才能对资源进行监控和告警。
  3. 用户必须遵守云平台的服务协议和使用规范,不得滥用或干扰云监控服务的正常运行。
  4. 用户必须保护好自己的账号和密码,不得泄露或分享给他人,以免造成数据的丢失或泄露。
  5. 用户必须及时更新自己的联系方式和通知方式,以确保能够收到云监控服务的告警通知。

# 2 使用

# 2.1 计费方式

本产品和相关服务在招商云平台上免费提供(不计量不计费)。用户在购买相关云产品时会自动开启产品的监控、告警和容量服务,产品拥有的监控视图、告警策略模板和容量指标会自动生成配置,相关产品限制条件可以咨询招商云相关产品和运维人员。

# 2.2 使用范围

  • 概览与管理 > 项目管理 (告警策略管理)
  • 计算 > 云主机 (告警历史/正在告警/监控图)
  • 计算 > 云裸机 (告警历史/正在告警/监控图)
  • 计算 > 专有宿主机 (告警历史/正在告警/监控图)
  • 存储 > 对象存储 > 存储桶 (监控图)
  • 存储 > 文件存储(监控图)
  • 数据库 > 关系型数据库(告警历史/正在告警/监控图)
  • 数据库 > 缓存型数据库(告警历史/正在告警/监控图)
  • 数据库 > 文档型数据库(告警历史/正在告警/监控图)
  • 监控与容量 > 监控告警
  • 监控与容量 > 自定义视图
  • 监控与容量 > 主机容量
  • 监控与容量 > 存储容量
  • 监控与容量 > 数据库容量

# 3 快速入门

# 3.1 监控图

可以通过点击云产品监控图标打开监控图

1)监控选项卡

各个产品功能可能不同,主要包含

  • 监控图标
  • 告警历史
  • 正在告警

2)监控图选项卡

各个产品功能可能不同,主要包含

  • 操作系统监控
  • 资源监控(数据库产品)
  • 引擎监控(数据库产品)

3)监控类别选项卡

各个产品功能可能不同,例如云主机包含

  • 基础
  • 磁盘
  • 网络

4)监控图面板

提供的功能包含:

  • 时间区间快捷按钮(1小时/3小时/6小时/12小时/近1天/近3天/近1周/近1月)
  • 时间区间选择器
  • 立即刷新按钮
  • 刷新间隔选择器(10秒/30秒/60秒/不刷新)

2)监控图表

提供的功能包含:

  • 指标区域 (左上角)
  • 区域缩放 (右上角)
  • 区域缩放还原(右上角)
  • 还原放大(右上角)
  • 指标名称 (底座)
  • 指标值 (y轴)
  • 时间范围 (x轴)

# 3.2 告警配置

在项目管理的项目操作里,点击告警策略管理,可以配置告警

告警策略的配置方式如下图所示:

  • 指标:告警判定的指标
  • 标签:指标的限制标签,填空为全判定
  • 最大告警次数:告警触发达到最大次数后静默,直到告警恢复
  • 条件:告警判定的条件,它包含判定函数,判定采样数量,判定逻辑表达式和判定阈值
  • 优先级:告警优先级。默认中级别,不可选。
  • 应用环境:限制告警判定的应用环境,填空为全环境
  • 备注:告警通知备注,会出现在告警通知标题上

其中判定条件的支持选项有

all(#3): 最新的3个数据点都满足阈值条件则报警
max(#3): 对于最新的3个数据点,其最大值满足阈值条件则报警
min(#3): 对于最新的3个数据点,其最小值满足阈值条件则报警
sum(#3): 对于最新的3个数据点,其和满足阈值条件则报警
avg(#3): 对于最新的3个数据点,其平均值满足阈值条件则报警
diff(#3): 拿最新的数据点(被减数),与历史最新的3个点(3个减数)相减,得到3个差,只要有一个差满足阈值条件则报警
pdiff(#3): 拿最新的数据点,与历史最新的3个点相减,得到3个差,再将3个差值分别除以减数,得到3个商值,只要有一个商值满足阈值则报警
lookup(#2,3): 最新的3个数据点中有2个满足条件则报警;

# 4 操作手册

# 4.1 资源监控图

在2.2章节的监控图覆盖的产品范围中,我们可以找到监控图 (也可能折叠在自定义列表字段中)。蓝色监控图代表监控已覆盖,点击监控图可以进入该产品的监控图页面。

每个产品的监控图可能不同。以下是主要产品的监控图指标:

类别 指标 指标英文名 产品
基础 cpu使用率 cpu.busy 云主机,云裸机,专有宿主机
基础 内存使用率 mem.memused.percent 云主机,云裸机,专有宿主机
基础 系统负载 load.1min 云主机,云裸机,专有宿主机
基础 系统负载 load.5min 云主机,云裸机,专有宿主机
基础 系统负载 load.15min 云主机,云裸机,专有宿主机
磁盘 卷io使用率 disk.io.util 云主机,云裸机,专有宿主机
磁盘 卷读写延时 disk.io.await 云主机,云裸机,专有宿主机
磁盘 卷读取速率 disk.io.read_bytes 云主机,云裸机,专有宿主机
磁盘 卷写入速率 disk.io.write_bytes 云主机,云裸机,专有宿主机
网络 网卡入口流量 net.if.in.bytes 云主机,云裸机,专有宿主机
网络 网卡出口流量 net.if.out.bytes 云主机,云裸机,专有宿主机
网络 网卡入口包速率 net.if.in.packets 云主机,云裸机,专有宿主机
网络 网卡出口包速率 net.if.out.packets 云主机,云裸机,专有宿主机
存储桶 使用字节数 bytes.actual 对象存储
存储桶 对象数量 object.num 对象存储
磁盘卷 卷使用率 df.bytes.used.percent 文件存储
磁盘卷 卷IO延迟 disk.io.await 文件存储
磁盘卷 卷IOPS disk.io.read_requests 文件存储
磁盘卷 卷吞吐量 disk.io.read_bytes 文件存储
资源监控 cpu使用率 libvirt.cpu.busy 数据库
资源监控 卷读取速率 libvirt.disk.read_bytes 数据库
资源监控 卷写入速率 libvirt.disk.write_bytes 数据库
资源监控 网卡入口流量 libvirt.network.rx_bytes 数据库
资源监控 网卡出口流量 libvirt.network.tx_bytes 数据库
资源监控 网卡入口包速率 libvirt.network.rx_packages 数据库
资源监控 网卡出口包速率 libvirt.network.tx_packages 数据库
引擎监控 网络连接 Threads_connected 数据库(MySQL)
引擎监控 网络连接 Threads_running 数据库(MySQL)
引擎监控 网络连接 Threads_cached 数据库(MySQL)
引擎监控 查询和事务 Questions 数据库(MySQL)
引擎监控 查询和事务 Com_commit 数据库(MySQL)
引擎监控 查询和事务 Com_rollback 数据库(MySQL)
引擎监控 网络流量 Bytes_received 数据库(MySQL)
引擎监控 网络流量 Bytes_sent 数据库(MySQL)
引擎监控 Innodb 读写 innodb_data_read 数据库(MySQL)
引擎监控 Innodb 读写 innodb_data_written 数据库(MySQL)
引擎监控 DML 操作量 tx_commit 数据库(PostgreSQL)
引擎监控 DML 操作量 tx_rollback 数据库(PostgreSQL)
引擎监控 DML 操作量 blks_read 数据库(PostgreSQL)
引擎监控 DML 操作量 blks_hit 数据库(PostgreSQL)
引擎监控 DML 操作量 rows_returned 数据库(PostgreSQL)
引擎监控 DML 操作量 rows_fetch 数据库(PostgreSQL)
引擎监控 DML 操作量 rows_insert 数据库(PostgreSQL)
引擎监控 DML 操作量 rows_update 数据库(PostgreSQL)
引擎监控 DML 操作量 rows_delete 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 checkpoints_req 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 checkpoints_timed 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 maxwritten_clean 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 buffers_alloc 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 buffers_checkpoint 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 buffers_clean 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 buffers_backend 数据库(PostgreSQL)
引擎监控 Buffer 相关指标 buffers_backend_fsync 数据库(PostgreSQL)
引擎监控 新建连接数 new_connections_within_1min 数据库(PostgreSQL)
引擎监控 慢查询 slow_query.over_two 数据库(PostgreSQL)
引擎监控 活动会话数 active_session_num 数据库(Oracle)
引擎监控 TMTX锁 tm_tx_lock_num 数据库(Oracle)
引擎监控 缓存命中 keyspace_hits 数据库(Redis)
引擎监控 缓存命中 keyspace_misses 数据库(Redis)
引擎监控 命中速率 total_commands_processed 数据库(Redis)
引擎监控 网络流量 total_net_input_bytes 数据库(Redis)
引擎监控 网络流量 total_net_output_bytes 数据库(Redis)
引擎监控 内存使用 used_memory 数据库(Redis)
引擎监控 内存使用 used_memory_rss 数据库(Redis)
引擎监控 网络连接 connections.current 数据库(MongoDB)
引擎监控 网络连接 connections.available 数据库(MongoDB)
引擎监控 等待锁 global_lock.active_clients.total 数据库(MongoDB)
引擎监控 等待锁 global_lock.current_queue.total 数据库(MongoDB)
引擎监控 内存使用 mem.bits 数据库(MongoDB)
引擎监控 内存使用 mem.resident 数据库(MongoDB)

# 4.2 告警策略管理

通过概览与管理 > 项目管理导航栏,可以查看到所在租户的项目列表,在列表的操作按钮下打开告警策略管理。

告警策略管理中列出的是各个产品在指定项目下的告警模板。目前支持的产品模板有:云主机ECS、关系型数据库Mysql、关系型数据库PostgreSQL、关系型数据库Oracle、文档型数据库Mongo、缓存型数据库Redis。

  1. 服务目录:点选服务目录可以加载选定产品的项目模板
  2. 新增策略:新增告警策略到当前模板。新增的策略暂时无法编辑告警优先级
  3. 告警接收人:编辑当前模板的告警接收人。仅限招商云平台账户
  4. 策略列表:当前模板的策略列表。继承自租户的策略暂时无法编辑指标、标签和优先级。详情参考3.2章节

# 4.3 控制台:监控告警

通过监控与容量 > 监控告警导航栏,可以查看告警信息。

  1. 告警状态选项卡:可选未恢复(当前)和已恢复(历史)
  2. 告警事件搜索框:目前支持搜索实例IP
  3. 刷新事件选择器
  4. 告警事件列表

# 4.4 控制台:自定义视图

通过监控与容量 > 自定义视图,可以定制一组用户的监控看板。

  1. 视图选项卡:支持最大创建维护 10个选项卡
  2. 视图操作面板:包括创建视图、保存视图,编辑视图名称,和监控图时间范围选择器等
  3. 监控视图:每个独立的监控图,每个视图支持最大4个监控图

点击监控视图的编辑按钮,即可进入监控图编辑页面

  1. 基础配置
    • 标题
    • 单位
    • 聚合类型:可选最小值、最大值、平均值、P95和原始值
  2. 指标配置
    • 资源:支持复选多个资源,包含云主机,云裸机,专有宿主机和数据库实例
    • 指标
    • 标签

# 4.5 控制台:主机容量

# 4.6 控制台:存储容量

# 4.7 控制台:数据库容量