# 1 产品概述
云监控服务是一种为云平台提供的基础监控服务,能够对计算、存储、网络和数据库等基础资源的性能指标、运行状态和周期容量进行实时监控和告警,帮助用户及时发现和解决问题,保障业务的稳定性和可用性。
# 1.1 产品概述
云监控服务的主要功能包括:
- 自动监控:用户无需额外开通,只要在云平台上创建资源,云监控服务就会自动启动,用户可以在云监控服务的控制台上查看资源的监控数据和告警信息。
- 多维度监控:云监控服务支持对不同类型和层级的资源进行监控,包括云主机、云硬盘、虚拟网络、负载均衡、数据库等,以及应用层、主机层、网络层等,用户可以根据自己的需求选择监控维度和指标。
- 灵活配置告警策略:用户可以根据自己的业务场景和阈值设置告警策略,对监控指标进行实时监测,一旦发生异常,云监控服务会通过短信、邮件、微信等多种方式通知用户,让用户能够及时响应和处理。
- 监控面板:除了各类资源的监控选项卡,用户也可以在云监控服务的控制台上创建和管理监控面板,将自己关注的监控指标和图表集中展示,方便用户总览和分析资源的监控情况。
- 容量管理:用户可以通过云监控服务对资源的周期使用容量进行收集、存储、查询和分析,从而实现对资源的行为和状态的全面监控,并进一步对资源扩缩容和成本控制进行决策。
# 1.2 业务价值
云监控服务为用户提供了以下业务价值:
- 提升业务可靠性:通过对资源的全方位监控和及时告警,用户可以快速发现和定位问题,避免或减少业务中断和损失,提升业务的可靠性和用户满意度。
- 优化资源利用率:通过对资源的性能和容量的监控和分析,用户可以根据实际需求和负载情况,合理调整资源的配置和规模,避免资源的浪费和不足,优化资源的利用率和成本效益。
- 支持业务创新:通过对资源的日志和事件的监控和分析,用户可以深入了解资源的行为和状态,发现业务的优势和不足,从而支持业务的创新和改进。
# 1.3 使用限制
云监控服务的使用约束包括:
- 用户必须在云平台上注册并登录,才能使用云监控服务。
- 用户必须在云平台上创建和管理资源,才能对资源进行监控和告警。
- 用户必须遵守云平台的服务协议和使用规范,不得滥用或干扰云监控服务的正常运行。
- 用户必须保护好自己的账号和密码,不得泄露或分享给他人,以免造成数据的丢失或泄露。
- 用户必须及时更新自己的联系方式和通知方式,以确保能够收到云监控服务的告警通知。
# 2 使用
# 2.1 计费方式
本产品和相关服务在招商云平台上免费提供(不计量不计费)。用户在购买相关云产品时会自动开启产品的监控、告警和容量服务,产品拥有的监控视图、告警策略模板和容量指标会自动生成配置,相关产品限制条件可以咨询招商云相关产品和运维人员。
# 2.2 使用范围
- 概览与管理 > 项目管理 (告警策略管理)
- 计算 > 云主机 (告警历史/正在告警/监控图)
- 计算 > 云裸机 (告警历史/正在告警/监控图)
- 计算 > 专有宿主机 (告警历史/正在告警/监控图)
- 存储 > 对象存储 > 存储桶 (监控图)
- 存储 > 文件存储(监控图)
- 数据库 > 关系型数据库(告警历史/正在告警/监控图)
- 数据库 > 缓存型数据库(告警历史/正在告警/监控图)
- 数据库 > 文档型数据库(告警历史/正在告警/监控图)
- 监控与容量 > 监控告警
- 监控与容量 > 自定义视图
- 监控与容量 > 主机容量
- 监控与容量 > 存储容量
- 监控与容量 > 数据库容量
# 3 快速入门
# 3.1 监控图
可以通过点击云产品监控图标打开监控图
1)监控选项卡
各个产品功能可能不同,主要包含
- 监控图标
- 告警历史
- 正在告警
2)监控图选项卡
各个产品功能可能不同,主要包含
- 操作系统监控
- 资源监控(数据库产品)
- 引擎监控(数据库产品)
3)监控类别选项卡
各个产品功能可能不同,例如云主机包含
- 基础
- 磁盘
- 网络
4)监控图面板
提供的功能包含:
- 时间区间快捷按钮(1小时/3小时/6小时/12小时/近1天/近3天/近1周/近1月)
- 时间区间选择器
- 立即刷新按钮
- 刷新间隔选择器(10秒/30秒/60秒/不刷新)
2)监控图表
提供的功能包含:
- 指标区域 (左上角)
- 区域缩放 (右上角)
- 区域缩放还原(右上角)
- 还原放大(右上角)
- 指标名称 (底座)
- 指标值 (y轴)
- 时间范围 (x轴)
# 3.2 告警配置
在项目管理的项目操作里,点击告警策略管理,可以配置告警
告警策略的配置方式如下图所示:
- 指标:告警判定的指标
- 标签:指标的限制标签,填空为全判定
- 最大告警次数:告警触发达到最大次数后静默,直到告警恢复
- 条件:告警判定的条件,它包含判定函数,判定采样数量,判定逻辑表达式和判定阈值
- 优先级:告警优先级。默认中级别,不可选。
- 应用环境:限制告警判定的应用环境,填空为全环境
- 备注:告警通知备注,会出现在告警通知标题上
其中判定条件的支持选项有
all(#3): 最新的3个数据点都满足阈值条件则报警
max(#3): 对于最新的3个数据点,其最大值满足阈值条件则报警
min(#3): 对于最新的3个数据点,其最小值满足阈值条件则报警
sum(#3): 对于最新的3个数据点,其和满足阈值条件则报警
avg(#3): 对于最新的3个数据点,其平均值满足阈值条件则报警
diff(#3): 拿最新的数据点(被减数),与历史最新的3个点(3个减数)相减,得到3个差,只要有一个差满足阈值条件则报警
pdiff(#3): 拿最新的数据点,与历史最新的3个点相减,得到3个差,再将3个差值分别除以减数,得到3个商值,只要有一个商值满足阈值则报警
lookup(#2,3): 最新的3个数据点中有2个满足条件则报警;
# 4 操作手册
# 4.1 资源监控图
在2.2章节的监控图覆盖的产品范围中,我们可以找到监控图 (也可能折叠在自定义列表字段中)。蓝色监控图代表监控已覆盖,点击监控图可以进入该产品的监控图页面。
每个产品的监控图可能不同。以下是主要产品的监控图指标:
类别 | 指标 | 指标英文名 | 产品 |
---|---|---|---|
基础 | cpu使用率 | cpu.busy | 云主机,云裸机,专有宿主机 |
基础 | 内存使用率 | mem.memused.percent | 云主机,云裸机,专有宿主机 |
基础 | 系统负载 | load.1min | 云主机,云裸机,专有宿主机 |
基础 | 系统负载 | load.5min | 云主机,云裸机,专有宿主机 |
基础 | 系统负载 | load.15min | 云主机,云裸机,专有宿主机 |
磁盘 | 卷io使用率 | disk.io.util | 云主机,云裸机,专有宿主机 |
磁盘 | 卷读写延时 | disk.io.await | 云主机,云裸机,专有宿主机 |
磁盘 | 卷读取速率 | disk.io.read_bytes | 云主机,云裸机,专有宿主机 |
磁盘 | 卷写入速率 | disk.io.write_bytes | 云主机,云裸机,专有宿主机 |
网络 | 网卡入口流量 | net.if.in.bytes | 云主机,云裸机,专有宿主机 |
网络 | 网卡出口流量 | net.if.out.bytes | 云主机,云裸机,专有宿主机 |
网络 | 网卡入口包速率 | net.if.in.packets | 云主机,云裸机,专有宿主机 |
网络 | 网卡出口包速率 | net.if.out.packets | 云主机,云裸机,专有宿主机 |
存储桶 | 使用字节数 | bytes.actual | 对象存储 |
存储桶 | 对象数量 | object.num | 对象存储 |
磁盘卷 | 卷使用率 | df.bytes.used.percent | 文件存储 |
磁盘卷 | 卷IO延迟 | disk.io.await | 文件存储 |
磁盘卷 | 卷IOPS | disk.io.read_requests | 文件存储 |
磁盘卷 | 卷吞吐量 | disk.io.read_bytes | 文件存储 |
资源监控 | cpu使用率 | libvirt.cpu.busy | 数据库 |
资源监控 | 卷读取速率 | libvirt.disk.read_bytes | 数据库 |
资源监控 | 卷写入速率 | libvirt.disk.write_bytes | 数据库 |
资源监控 | 网卡入口流量 | libvirt.network.rx_bytes | 数据库 |
资源监控 | 网卡出口流量 | libvirt.network.tx_bytes | 数据库 |
资源监控 | 网卡入口包速率 | libvirt.network.rx_packages | 数据库 |
资源监控 | 网卡出口包速率 | libvirt.network.tx_packages | 数据库 |
引擎监控 | 网络连接 | Threads_connected | 数据库(MySQL) |
引擎监控 | 网络连接 | Threads_running | 数据库(MySQL) |
引擎监控 | 网络连接 | Threads_cached | 数据库(MySQL) |
引擎监控 | 查询和事务 | Questions | 数据库(MySQL) |
引擎监控 | 查询和事务 | Com_commit | 数据库(MySQL) |
引擎监控 | 查询和事务 | Com_rollback | 数据库(MySQL) |
引擎监控 | 网络流量 | Bytes_received | 数据库(MySQL) |
引擎监控 | 网络流量 | Bytes_sent | 数据库(MySQL) |
引擎监控 | Innodb 读写 | innodb_data_read | 数据库(MySQL) |
引擎监控 | Innodb 读写 | innodb_data_written | 数据库(MySQL) |
引擎监控 | DML 操作量 | tx_commit | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | tx_rollback | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | blks_read | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | blks_hit | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | rows_returned | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | rows_fetch | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | rows_insert | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | rows_update | 数据库(PostgreSQL) |
引擎监控 | DML 操作量 | rows_delete | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | checkpoints_req | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | checkpoints_timed | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | maxwritten_clean | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | buffers_alloc | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | buffers_checkpoint | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | buffers_clean | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | buffers_backend | 数据库(PostgreSQL) |
引擎监控 | Buffer 相关指标 | buffers_backend_fsync | 数据库(PostgreSQL) |
引擎监控 | 新建连接数 | new_connections_within_1min | 数据库(PostgreSQL) |
引擎监控 | 慢查询 | slow_query.over_two | 数据库(PostgreSQL) |
引擎监控 | 活动会话数 | active_session_num | 数据库(Oracle) |
引擎监控 | TMTX锁 | tm_tx_lock_num | 数据库(Oracle) |
引擎监控 | 缓存命中 | keyspace_hits | 数据库(Redis) |
引擎监控 | 缓存命中 | keyspace_misses | 数据库(Redis) |
引擎监控 | 命中速率 | total_commands_processed | 数据库(Redis) |
引擎监控 | 网络流量 | total_net_input_bytes | 数据库(Redis) |
引擎监控 | 网络流量 | total_net_output_bytes | 数据库(Redis) |
引擎监控 | 内存使用 | used_memory | 数据库(Redis) |
引擎监控 | 内存使用 | used_memory_rss | 数据库(Redis) |
引擎监控 | 网络连接 | connections.current | 数据库(MongoDB) |
引擎监控 | 网络连接 | connections.available | 数据库(MongoDB) |
引擎监控 | 等待锁 | global_lock.active_clients.total | 数据库(MongoDB) |
引擎监控 | 等待锁 | global_lock.current_queue.total | 数据库(MongoDB) |
引擎监控 | 内存使用 | mem.bits | 数据库(MongoDB) |
引擎监控 | 内存使用 | mem.resident | 数据库(MongoDB) |
# 4.2 告警策略管理
通过概览与管理 > 项目管理导航栏,可以查看到所在租户的项目列表,在列表的操作按钮下打开告警策略管理。
告警策略管理中列出的是各个产品在指定项目下的告警模板。目前支持的产品模板有:云主机ECS、关系型数据库Mysql、关系型数据库PostgreSQL、关系型数据库Oracle、文档型数据库Mongo、缓存型数据库Redis。
- 服务目录:点选服务目录可以加载选定产品的项目模板
- 新增策略:新增告警策略到当前模板。新增的策略暂时无法编辑告警优先级
- 告警接收人:编辑当前模板的告警接收人。仅限招商云平台账户
- 策略列表:当前模板的策略列表。继承自租户的策略暂时无法编辑指标、标签和优先级。详情参考3.2章节
# 4.3 控制台:监控告警
通过监控与容量 > 监控告警导航栏,可以查看告警信息。
- 告警状态选项卡:可选未恢复(当前)和已恢复(历史)
- 告警事件搜索框:目前支持搜索实例IP
- 刷新事件选择器
- 告警事件列表
# 4.4 控制台:自定义视图
通过监控与容量 > 自定义视图,可以定制一组用户的监控看板。
- 视图选项卡:支持最大创建维护 10个选项卡
- 视图操作面板:包括创建视图、保存视图,编辑视图名称,和监控图时间范围选择器等
- 监控视图:每个独立的监控图,每个视图支持最大4个监控图
点击监控视图的编辑按钮,即可进入监控图编辑页面
- 基础配置
- 标题
- 单位
- 聚合类型:可选最小值、最大值、平均值、P95和原始值
- 指标配置
- 资源:支持复选多个资源,包含云主机,云裸机,专有宿主机和数据库实例
- 指标
- 标签