分析数据卡在 Qpidd 死信队列中

<ph type="x-smartling-placeholder"></ph> 您正在查看 Apigee Edge 文档。
转到 Apigee X 文档
信息

问题

由于 Qpidd 服务器未将分析消息转移到 PostgreSQL,Edge 界面中缺少分析数据。在 Edge 中,edge-qpid-server 组件对应于 Qpidd 服务器。

Qpidd 为每个分析组维护两个队列:

  • ax-q-axgroup001-consumer-group-001

    此队列存放从消息处理器和路由器推送的分析消息。消息由 edge-qpid-server 从此处拉取,后者解析消息并将其插入 PostgreSQL。成功处理消息后,系统会将其从队列中移除。

  • ax-q-axgroup001-consumer-group-001-dl

    此队列是死信队列。它将用作 edge-qpid-server 无法处理且因此不再希望接收的消息的目的地。当超出最大传送计数时,或者如果 PostgreSQL 由于运行时错误而拒绝插入新数据,通常会填充此字段。

错误消息

根本原因可能是 edge-qpid-server 组件存在各种运行时错误。通常,如果 edge-qpid-server 收到来自 PostgreSQL 的运行时错误,则会创建死信队列(如果不存在),然后在其中发送以下消息:

yyyy-MM-dd HH:mm:ss,SSS ax-q-axgroup001-consumer-group-001-persistpool-thread-6 WARN c.a.a.m.MessageConsumer - MessageConsumer.process() : Sending message batch to the DLQ.

可能的原因

原因 说明 适用的问题排查说明
邮件卡在 qpidd 死信队列中 edge-qpid-server 无法理解从 Qpidd 代理读取的消息,或无法将消息保存到 PostgreSQL。 边缘私有云用户

常见诊断步骤

运行以下命令以查看 Qpidd 队列统计信息:

qpid-stat -q

输出返回向 broker 注册的一组队列。如果名称以“-dl”结尾的队列则有消息卡在死信队列中。

Queues
  queue                                     dur  autoDel  excl  msg   msgIn  msgOut  bytes  bytesIn  bytesOut   cons  bind
  ========================================================================================================================
  ax-q-axgroup-001-consumer-group-001       Y                   0     185    185     0       13.8m   13.8m      6      2
  ax-q-axgroup-001-consumer-group-001-dl    Y                   0     70     70      0        3.9m    3.9m      0      2

原因:邮件卡在 qpidd 的死信队列中

诊断

以下情况可能会导致这种情况:

  1. 过去进行过升级,在此期间 PostgreSQL 发生故障。
  2. 由于网络问题导致 PostgreSQL 暂时中断。
  3. edge-qpid-server 尝试向 PostgreSQL 发送消息,但 PostgreSQL 返回了运行时错误。

分辨率

  1. 记下常见诊断步骤中的队列名称。例如:

    • ax-q-axgroup-001-consumer-group-001
    • ax-q-axgroup-001-consumer-group-001-dl
  2. 运行 qpid-tool 命令以进入交互式 qpid 提示符:

    qpid-tool

    此命令会返回以下内容:

    Management Tool for QPID
    qpid:
  3. 运行 list broker 以获取活跃代理列表:

    list broker

    此命令会返回以下内容:

    Object Summary:
    ID   Created   Destroyed  Index
    =======================================
    125  21:00:00  -          amqp-broker

    其中 ID 列指定代理的 ID。

  4. 记下代理的 ID。在本示例中,该值为 125。

  5. 运行以下命令,将消息从死信队列移回实际队列:

    call 125 queueMoveMessages ax-q-axgroup-001-consumer-group-001-dl ax-q-axgroup-001-consumer-group-001 100000 {}

    此命令会返回以下内容:

    OK (0) - {}

    如果没有输出,则无需执行任何操作,即没有要移动的邮件。如果您没有看到 OK(0),则应联系 Apigee Edge 支持团队

  6. 退出 qpid-tool 终端。

    quit
  7. 等待 5 分钟,然后从常见诊断步骤中再次运行诊断步骤。验证实际队列中的消息是否得到了处理,并确保死信消息计数保持为 0。

如果问题仍然存在,请转到下一部分。

必须收集的诊断信息

如果按照上述说明操作后问题仍然存在,请收集以下诊断信息。请与 Apigee Edge 支持团队联系并进行分享:

  • Qpidd 日志:/opt/apigee/var/log/apigee-qpidd/apigee-qpidd.log
  • Postgresql 日志:/opt/apigee/var/log/apigee-postgresql/apigee-postgresql.log
  • Edge-qpid-server 日志:/opt/apigee/var/log/edge-qpid-server/logs/system.log
  • Edge-postgres-server 日志:/opt/apigee/var/log/edge-postgres-server/logs/system.log
  • Qpidd 队列统计信息:

    qpid-stat -q
  • 以下 curl 命令返回的 Google Analytics 组:

    curl -u sysadminEmail:password http://mgmt:8080/v1/analytics/groups/ax