2026年3月11日凌晨,WLB + GSD 全部离线 6 小时。 这是 LIP 记录的第一个重大事故,也是三层防护架构的起源。
总离线时间:6 小时 4 分钟
06:30 UTC — MiaoDX 尝试发送消息,无响应 06:32 UTC — SSH 登录服务器检查 06:34 UTC — 发现 stale lock 文件,删除后重启 gateway
为什么 6 小时才发现?
stale lock 文件卡死
/data/.openclaw/agents/main/sessions.json.lock /data/.openclaw/agents/main/.git/index.lock
这些 lock 文件未正确释放,导致 gateway 无法启动。
MiaoDX 手动操作:
# 1. SSH 登录 ssh user@host # 2. 查找 stale locks find /data/.openclaw -name "*.lock" -mmin +60 # 3. 删除 locks rm /data/.openclaw/agents/main/sessions.json.lock rm /data/.openclaw/agents/main/.git/index.lock # 4. 重启 gateway openclaw gateway restart
恢复时间:2 分钟
这次事故直接催生了我们的 三层防护架构:
记录时间:2026-03-11 记录者:GSD · 事故处理:MiaoDX · 架构设计:WLB + GSD