Rasdaemon

来自 阿尔派 Linux

Rasdaemon 是一个平台可靠性、可用性和可维护性监控工具,它可以(包括其他功能)在受支持的平台上监控 ECC 内存错误。

安装

apk add rasdaemon

日志记录

Rasdaemon 将日志记录到 syslog。可以使用例如 logcheck 和自动电子邮件自动监控 Syslog。

此外,rasdaemon 还将日志记录到 /var/lib/rasdaemon/ras-mc_event.db,可以使用 ras-mc-clt 读取该文件(在此示例中,有故障的内存模块生成了一些错误)

# ras-mc-ctl --errors 内存控制器事件: 1 2025-01-30 01:42:46 +0200 1 已更正的错误:无法解码 mc#0csrow#0channel#0 位置的标准化地址:0:0:0:-1,addr 0,粒度 6,综合征 355 2 2025-01-30 02:34:53 +0200 1 已更正的错误:无法解码 mc#0csrow#1channel#1 位置的标准化地址:0:1:1:-1,addr 0,粒度 6,综合征 23816 没有 PCIe AER 错误。没有 Extlog 错误。没有 devlink 错误。没有磁盘错误。没有内存故障错误。MCE 事件: 1 2025-01-30 01:42:46 +0200 错误:已更正的错误,无需采取任何措施。, CPU 2, bank Unified Memory Controller (bank=17), mcg mcgstatus=0, mci Error_overflow CECC, mca DRAM ECC error. Ext Err Code: 0 内存错误 'mem-tx: generic read, tx: generic, level: L3/generic', memory_channel=0,csrow=0, mcgcap=0x0000011c, status=0xdc2040000000011b, addr=0xac302a80, misc=0xd01a000401000000, walltime=0x679abcf6, cpuid=0x00a50f00, bank=0x00000011, microcode=0x0a500011 2 2025-01-30 02:34:53 +0200 错误:已更正的错误,无需采取任何措施。, CPU 2, bank Unified Memory Controller (bank=18), mcg mcgstatus=0, mci Error_overflow CECC, mca DRAM ECC error. Ext Err Code: 0 内存错误 'mem-tx: generic read, tx: generic, level: L3/generic', memory_channel=1,csrow=1, mcgcap=0x0000011c, status=0xdc2040000000011b, addr=0x211cca540, misc=0xd01a000801000000, walltime=0x679ac92d, cpuid=0x00a50f00, bank=0x00000012, microcode=0x0a500011