你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

VM 监视:增强 VM 运行状况监视(预览版)

VM 监视是适用于虚拟机 (VM) 和虚拟机规模集的标准化轻型自适应服务产品。 它在 VM 中以可配置的间隔运行运行状况检查,并通过统一数据模型将结果发送到 Azure。 Azure 中用于生产监视的 AI 运营 (AIOps) 引擎会使用这些运行状况结果进行回归检测和预防。

VM 监视通过应用程序运行状况 VM 扩展提供,便于客户轻松进行部署和管理。 此外,VM 监视是免费提供的。

VM 监视的监视功能细节

  • 易于采用:可通过 应用程序健康 VM 扩展 使用 VM 监控。
  • 灵活部署:可以使用 Azure 资源管理器模板(ARM 模板)、PowerShell 或 Azure CLI 启用 VM 监视
  • 兼容性:VM 监视在 Linux 和 Windows 环境中均可无缝运行。 它适用于单个 VM 和虚拟机规模集。
  • 资源治理:VM 监视提供高效的监视,而不会影响系统性能。 VM 监视进程的 CPU 和内存资源利用率上限有助于保护 VM。
  • 现成可用:VM 监视配备了一套默认测试,你可以根据自己的情况对其进行配置

VM 监视内存约束

为了在不同的虚拟机(VM)配置中保持一致的性能, VM 监视 会根据 VM SKU 的总可用内存强制实施内存使用限制。 内存上限根据 VM 的内存层动态调整。

VM 内存范围 VM 监视内存上限
小于 8 GB 80MB
8 GB 到 16 GB 200MB
大于 16 GB 400MB

网络

信号名称 类型 描述
出站连接 检查 验证来自 Azure VM 的网络出站连接。
DNS 解析 检查 验证是否可以解析一个或多个 DNS 名称。
TCPSynRetransmits (仅限 Linux) 指标 在放弃建立连接之前,系统重新传输 TCP SYN 和 SYN/ACK 数据包的次数。
SegmentsRetransmitted 指标 已传输的 TCP 段中含有一个或多个以前传输的八位字节的段数。
NormalizedSegmentsRetransmitted 指标 + SegmentsRetransmitted / (SegmentsSentSegmentsRetransmitted)
连接重置 指标 TCP 连接从 CLOSED 状态或 ESTABLISHED 状态直接转换为 CLOSE_WAIT 状态的次数。
NormalizedConnectionResets 指标 上次测量间隔期间重置的连接百分比。
连接失败尝试 指标 TCP 连接从 CLOSED 状态或 SYN_SENT 状态直接转换为 SYN_RCVD 状态的次数。
NormalizedFailedConnectionAttempts 指标 FailedConnectionAttempts / (ActiveConnectionOpeningsPassiveConnectionOpenings) +
ActiveConnectionOpenings 指标 TCP 连接从 SYN_SENT 状态直接转换为 CLOSED 状态的次数。
PassiveConnectionOpenings 指标 TCP 连接从 SYN_RCVD 状态直接转换为 LISTEN 状态的次数。
CurrentConnections 指标 已建立的连接数。
SegmentsReceived 指标 已收到的段数,包括收到的有错误的段。
SegmentsSent 指标 已发送的段数,包括当前连接上的段,但仅包含重新传输的八位字节的段排除在外。

磁盘

信号名称 类型 描述
Azure 磁盘 I/O 检查 验证文件创建、写入和读取。 删除装载到 VM 的每个驱动器的相关操作。
FreeSpaceInBytes 指标 目标装入点的可用磁盘空间。
UsedSpaceInBytes 指标 目标装入点的已用磁盘空间。
CapacityInBytes 指标 目标装入点的磁盘空间容量。
已用百分比 指标 目标装入点的已用磁盘空间百分比。
WriteOps 指标 目标磁盘/分区的每秒写入操作数。
ReadOps 指标 目标磁盘/分区的每秒读取操作数。

中央处理器

信号名称 类型 描述
ProcessCPUCoreUsage 指标 目标进程在单个 CPU 核心中占用的百分比的即时度量(100 = 100%,整个核心)。
ProcessCPUMachineUsage 指标 此进程在计算机总 CPU 中占用的百分比。
机器总CPU使用率 指标 VM 的总即时 CPU 利用率。

内存

信号名称 类型 描述
ProcessRSSPercent 指标 进程 RSS / (计算机总内存 * 100%
ProcessPageFaults 指标 自进程启动以来的页错误数。
MachineMemoryTotalInBytes 指标 VM 的总内存(以字节为单位)。
MachineMemoryUsedPercent 指标 计算机已用内存 / (计算机总内存 * 100%
TotalPageFaults 指标 所有正在运行的进程自启动以来的页错误总数。

处理

信号名称 类型 描述
进程创建 检查 启动轻量级进程,验证是否可以创建进程。
正在运行的进程(es) 检查 验证一个或多个目标进程是否正在运行。
UpTime 指标 自上次进程启动以来,目标进程已经运行的时间。

IMDS

信号名称 类型 描述
IMDS 检查 验证用户是否可以从 VM 内部访问 Azure 实例元数据服务 (IMDS) 终结点。 VM 信息从 IMDS 终结点查询返回。

时钟

信号名称 类型 描述
时钟倾斜 检查 验证远程网络时间协议 (NTP) 服务器与 Azure VM 之间的时钟偏差。 对于 Windows VM,如果无法访问远程 NTP 服务器,请回退以检查 Windows 时间服务是否与 w32tm 同步。

操作系统

信号名称 类型 描述
系统错误 指标 从 SystemData <=2(包括 LOG_ALWAYS、严重、错误)的系统级事件日志(仅限 Windows)收集错误数。 measurementTarget 定义为使用默认 Windows 区域设置的 EventLog Source_EventId。 每个集合限制为 10 多个不同的度量目标。

azblob

信号名称 类型 描述
Azure 存储 Blob 连接 检查 验证与 Azure 存储 Blob 的连接,并使用 MSI 或共享访问签名 (SAS) 令牌下载 Blob。

硬件

信号名称 类型 描述
硬件运行状况监视器 EventLog 从 Windows 事件日志收集硬件运行状况信息。 目前只会收集磁盘相关的关键事件,包括 ID 为 7、500、504、505、512、549 的事件。
硬件运行状况 Nvidia Smi EventLog 通过运行 nvidia-smi 命令(仅限 Linux Ubuntu)收集 GPU 统计信息,包括内存和 GPU 使用情况、temp 和其他统计信息