如何解决 Hermes QQ 机器人掉线问题

Hermes Agent 在接入 QQ 机器人时,常因长时间无业务流量触发 QQ 网关的 idle 超时机制(错误码 4009),导致即使心跳正常也会断线。由于 QQ C2C 场景天然低频,偶发的重连失败易使 Bot 进入“假死”状态。为解决此问题,采用 Hermes 内置的 Watch Dog 服务进行自动化监控:通过 cron job 每 5 分钟检查 Gateway 日志,若发现断连且未成功重连,则自动重启 Gateway。正常运行则静默处理。该方案无需 LLM 参与,零 Token 消耗。

发布于2026年5月14日 14:29
编辑零重力瓦力
评论0
阅读157

用 Hermes Agent 差不多 2 个月了。 一直被一个问题困扰,在接 QQ 机器人的时候,如果一段时间没发消息,bot 就会悄悄掉线。

查了一下 gateway 日志,每隔约 30 分钟就会出现一条:

WebSocket closed: code=4009 reason=Session timed out

4009 是 QQ 官方 WebSocket 网关的会话超时错误码。虽然 Hermes 内置了自动重连机制(断线后 2 秒重连),但偶发的重连失败会让 bot 进入"假死" 状态,也就是进程在跑,消息却收不到。

问题出在哪?其实就在 QQ 的 WebSocket 协议设计。

QQ 官方要求客户端在收到 Hello 事件后定期发心跳包,默认间隔约 41 秒。Hermes 按 80% 间隔(约 33 秒)发送心跳,理论上没问题。但 QQ 服务端还有另一层逻辑:长时间没有业务流量的会话会被判定为 idle,直接踢掉。

也就是说,即使心跳正常,"没人聊天" 一样会被踢掉。

这跟 Telegram 或 Discord 的 bot 不一样。Telegram 用长轮询(long polling),Discord 用的是高活跃度的 WebSocket(大型服务器每秒几十条消息),idle 超时极少触发。QQ 的 C2C(私聊)场景天然低频,而问题就出现在这。

在咨询了 Hermes 后,它给出了一个不错的方案,就是给 QQ 机器人加一个 Watch Dog 服务:每 5 分钟检查一次 gateway 日志,判断 qqbot 的连接状态。正常就静默退出,断连就自动重启 gateway。

Watch Dog 脚本用 Hermes 的 cron job 跑,采用 no_agent 模式的纯脚本,不需要 LLM,零 Token 消耗。

关键判断逻辑:

  1. 检查 gateway 服务是否在运行
  2. 查看最近日志里断连事件是否在重连事件之后
  3. 检查最近 5 分钟内有没有 Session timed out 但没有成功重连的情况

跑了一天,效果不错。之前隔三差五就要手动重启,现在全自动化了。

对了,如果 Watch Dog 脚本触发重启,它会通过 QQ 给我发一条通知。正常情况下则什么都不发。

Watch Dog

#!/bin/bash
# QQBot Watchdog - Check qqbot connection, restart gateway if disconnected
# Runs every 5 minutes via Hermes cron (no_agent mode)
set -euo pipefail

LOGFILE="$HOME/.hermes/logs/qqbot-watchdog.log"
MAX_LOG_LINES=200

log() {
    echo "[(date′+*" >> "$LOGFILE"
}

# Rotate log if too large
if [ -f "$LOGFILE" ]; then
    lines=(wc−l<"LOGFILE")
    if [ "lines"−gt"MAX_LOG_LINES" ]; then
        tail -n "MAXL​OGL​INES""LOGFILE" > "LOGFILE.tmp" && mv "LOGFILE.tmp" "$LOGFILE"
    fi
fi

# Check if gateway service is running
if ! systemctl --user is-active --quiet hermes-gateway.service 2>/dev/null; then
    log "WARN: Gateway service not running, starting it"
    hermes gateway start 2>&1 >> "$LOGFILE"
    echo "⚠️ QQBot 看门狗:Gateway 服务未运行,已尝试重启"
    exit 0
fi

# Check qqbot connection from recent gateway logs
GATEWAY_LOG="$HOME/.hermes/logs/gateway.log"

if [ ! -f "$GATEWAY_LOG" ]; then
    log "ERROR: Gateway log not found at $GATEWAY_LOG"
    echo "⚠️ QQBot 看门狗:找不到 gateway 日志文件"
    exit 0
fi

# Get the last 50 lines of gateway log for analysis
RECENT=(tail−50"GATEWAY_LOG")

# Find the most recent connection state events
LAST_DISCONNECT=(echo"RECENT" | grep -n 'WebSocket closed\|WebSocket error\|Reconnect failed\|Still not connected\|Disconnected' | tail -1)
LAST_CONNECTED=(echo"RECENT" | grep -n 'Ready\|Reconnected\|qqbot connected' | tail -1)

# Extract line numbers for comparison
DISCONNECT_LINE=""
CONNECT_LINE=""

if [ -n "$LAST_DISCONNECT" ]; then
    DISCONNECT_LINE=(echo"LAST_DISCONNECT" | cut -d: -f1)
fi
if [ -n "$LAST_CONNECTED" ]; then
    CONNECT_LINE=(echo"LAST_CONNECTED" | cut -d: -f1)
fi

# If last disconnect happened AFTER last connect, qqbot is likely disconnected
if [ -n "$DISCONNECT_LINE" ]; then
    if [ -z "CONNECTL​INE"]∣∣["DISCONNECT_LINE" -gt "$CONNECT_LINE" ]; then
        log "WARN: QQBot appears disconnected. Last disconnect (line DISCONNECTL​INE)afterlastconnect(lineCONNECT_LINE). Restarting gateway."
        hermes gateway restart 2>&1 >> "$LOGFILE" || true
        # Give it a moment, then verify
        sleep 5
        if systemctl --user is-active --quiet hermes-gateway.service; then
            echo "🔄 QQBot 看门狗:检测到断连,已重启 gateway"
        else
            echo "❌ QQBot 看门狗:重启后 gateway 仍未运行,请手动检查"
        fi
        exit 0
    fi
fi

# Also check: has there been any heartbeat timeout in the last 5 minutes WITHOUT reconnect?
LAST_5MIN=$(date -d '5 minutes ago' '+%Y-%m-%d %H:%M' 2>/dev/null || date -v-5M '+%Y-%m-%d %H:%M')
RECENT_5MIN=(tail−200"GATEWAY_LOG" | awk -v ts="LAST5​MIN"′0 >= ts')

TIMEOUT_IN_5MIN=(echo"RECENT_5MIN" | grep -c 'Session timed out' 2>/dev/null || echo "0")
RECONNECT_IN_5MIN=(echo"RECENT_5MIN" | grep -c 'Reconnected\|Ready' 2>/dev/null || echo "0")

if [ "TIMEOUT_IN_5MIN" -gt 0 ] && [ "RECONNECT_IN_5MIN" -eq 0 ]; then
    log "WARN: Session timeout detected without successful reconnect in last 5min. Restarting gateway."
    hermes gateway restart 2>&1 >> "$LOGFILE" || true
    sleep 5
    echo "🔄 QQBot 看门狗:检测到超时未重连,已重启 gateway"
    exit 0
fi

# All good - quiet exit (no output = no notification)
log "OK: QQBot connected and healthy"
exit 0

相关文章

谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局
智能体工程
2026年6月13日
0 条评论
零重力瓦力

谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局

谷歌研究团队提出“忠实不确定性”框架,主张 AI 应诚实表达置信度而非盲目追求零错误,以解决大模型“自信错误”导致的幻觉问题。该研究指出传统降幻觉方法存在高昂“效用税”,建议将输出区分为自信错误与诚实猜测。这对 AI Agent 尤为关键,能优化元认知判断与工具调用效率。开发者可通过调整评估指标、提示词及路由策略落地应用,推动系统从可用迈向可靠。

#Google#智能体工程
阅读全文
LangChain 让 Agent 的技能不再只靠提示词:Interpreter Skills 把确定性写进代码
智能体工程
2026年6月6日
0 条评论
零重力瓦力

LangChain 让 Agent 的技能不再只靠提示词:Interpreter Skills 把确定性写进代码

LangChain 发布实验性功能 Interpreter Skills,专门用于解决 AI Agent 执行路径不确定的问题。该功能通过增加代码模块,将确定性逻辑从提示词转移至代码,使模型仅负责判断与委托。其核心优势包括执行确定性、解释器内状态持久化及精细化安全边界,有效缓解长流程中的“上下文焦虑”。这标志着 Agent 架构向“提示词定义意图、代码保障执行”的混合模式演进,提升了任务执行的稳定性与可靠性。

#智能体工程#LangChain
阅读全文
氛围编程的规则文件为什么总是没用?
智能体工程
2026年6月4日
0 条评论
零重力瓦力

氛围编程的规则文件为什么总是没用?

针对 AI 编程中被动规则失效问题,哥伦比亚大学提出 Zoro 框架,通过 Enrich、Enforce、Evolve 三步将静态规则转为主动控制。评估显示该框架使规则遵循率提升 57%,推动用户从提示词工程转向规则工程。研究指出长会话中规则注意力衰减是失效主因,建议开发者采用规则与任务绑定、要求证据输出及定期修剪规则集等策略,以增强 AI 对意图的可靠执行。

#智能体工程
阅读全文
互动讨论

评论区

围绕《如何解决 Hermes QQ 机器人掉线问题》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。