如何监控

适用于私有云的 Edge v. 4.16.05

本文档介绍了本地部署所支持的组件的监控技术, Apigee Edge 的部署指南

启用 JMX 身份验证并设置 JMX 密码

对管理服务器、消息处理器、Qpid 和 Postgres 的监控过程 使用 JMX。JMX 默认处于启用状态,远程 JMX 访问不需要密码。

要启用 JMX 身份验证,每个组件都有一个 change_jmx_auth 操作,供您用于 启用/停用身份验证和设置 JMX 凭据。

要启用 JMX 身份验证,请使用以下命令:

>  /<inst_root>/apigee/apigee-service/bin/apigee-service comp change_jmx_auth optionsOrConfigFile

其中:

  • compedge-management-server、Edge-message-processor、 Edge-router、edge-qpid-server edge-postgres-server.
  • 选项如下:
    • -u:用户名
    • -p:密码
    • -e:y(启用)或 n (可编辑)
  • 配置文件包括:
    • JMX_USERNAME=username
    • JMX_ENABLED=y/n
    • JMX_PASSWORD=password (如果未设置或未使用 -p 传入,系统会提示您)

例如,如需在命令行中使用选项,请执行以下命令:

> /<inst_root>/apigee/apigee-service/bin/apigee-service edge-management-server change_jmx_auth -u foo -p bar -e y

如果您有配置文件:

> /<inst_root>/apigee/apigee-service/bin/apigee-service edge-management-server change_jmx_auth -f configFile

如果您在多个节点上运行 Edge,请在所有节点上运行此命令,并指定相同的用户名和密码。

如果以后要停用 JMX 身份验证,请使用以下命令:

> /<inst_root>/apigee/apigee-service/bin/apigee-service edge-management-server change_jmx_auth -e n

管理服务器

使用 用于监控系统健康检查和处理信息的 JConsole

使用 JConsole(一种兼容 JMX 的工具)来管理和监控健康检查和处理统计信息。 通过使用 JConsole,您可以使用管理服务器(或任何服务器)公开的 JMX 统计信息,并且 在图形界面中显示它们。如需详细了解如何使用 JConsole,请参阅 http://docs.oracle.com/javase/8/docs/technotes/guides/management/jconsole.html

使用 JConsole 和以下服务网址监控 JMX 属性 (MBean) 通过 JMX 提供。

service:jmx:rmi:///jndi/rmi://<ip address>:<port>/platform

其中,<ip address> 是管理服务器的 IP 地址(或者 相应的服务器)。默认情况下,管理服务器的端口为 1099。

下表显示了通用 JMX 统计信息:

JMX MBean

JMX 属性

内存

HeapMemoryUsage

NonHeapMemoryUsage

用法

注意:属性值将以四个值显示:submitted、 init、max 和 used。

使用 Edge Application API 检查

您可以通过调用以下 CURL 命令对管理服务器(或任何服务器)执行 API 检查:

curl http://<host>:8080/v1/servers/self/up

其中,&lt;host&gt; 是管理服务的 IP 地址 服务器。

此调用会返回“true”和“false”。如果为 true,则表示节点已启动,Java 服务已启动 。

如果未收到 HTTP 200 (OK) 响应,则 Edge 无法响应端口 8080 请求。

问题排查

  1. 登录服务器并运行以下命令:
    /&lt;inst_root&gt;/apigee/apigee-service/bin/apigee-service 边缘管理服务器状态
  2. 如果服务未运行,请启动服务:
    /&lt;inst_root&gt;/apigee/apigee-service/bin/apigee-service 边缘管理服务器启动

使用 Edge 应用 - 用户、组织和部署检查

管理服务器发挥着至关重要的作用,能够将各个本地的所有其他包裹汇集在一起 安装。您可以在管理服务器上查看用户、组织和部署状态 方法是发出以下命令:

curl -u userEmail:password http://localhost:8080/v1/users
curl -u userEmail:password http://localhost:8080/v1/organizations
curl -u userEmail:password http://localhost:8080/v1/organizations/orgname/deployments

系统应显示“已部署”状态。如果这些方法都失败,请 以下:

  1. 检查管理服务器日志(位于 &lt;inst_root&gt;/apigee/var/log/edge-management-server) 检查是否存在任何错误
  2. 对管理服务器进行调用,检查其是否正常运行。
  3. 从 ELB 中移除服务器,然后重启管理服务器。
    /&lt;inst_root&gt;/apigee/apigee-service/bin/apigee-service 边缘管理服务器重启

路由器

您可以通过调用以下 C网址 对路由器(或任何服务器)执行 API 检查 命令:

curl http://<host>:8081/v1/servers/self/up

其中,host 是路由器的 IP 地址。

此调用会返回“true”和“false”。如果为 true,则表示节点已启动,Java 服务已启动 。

如果未收到 HTTP 200 (OK) 响应,则 Edge 无法响应端口 8081 请求。

问题排查

  1. 登录服务器并运行以下命令:
    /<inst_root>/apigee/apigee-service/bin/apigee-service edge-router status
  2. 如果服务未运行,请启动服务
    /&lt;inst_root&gt;/apigee/apigee-service/bin/apigee-service 边缘路由器启动
  3. 如果服务正在运行,请测试它是否正常运行。您可以通过以下方式监控集群状态: 根据 ReachableCount 检查成员计数,并提醒所有 “memberCount != reachableCount”
    curl -v -u &lt;userEmail&gt;:&lt;password&gt;http://localhost:port/v1/cluster

    其中,端口 - 路由器为 8081,消息处理器为 8082。上面的输出 C网址 命令如下所示:
    {
    “memberCount”:12、
    “pod”: "rea1gw001",
    &quot;reachableCount&quot;:12、
    “区域”: "us-east-1",
    "类型": [ "management-server"]
    * 连接到主机 ms05apigee 的连接未受损
    * 断开连接 0
    }
  4. 如果它不起作用,请运行以下命令来检查失败情况或查找有问题的成员。
    curl http://localhost:port/v1/cluster/members

    其中,端口 - 路由器为 8081,消息处理器为 8082。上述 CURL 命令的输出如下所示:
    {
    "lastChange" : 0,
    "latency" : 0,
    "state" : "CONNECTED",
    "uuid" : "9c4c8bde-0015-4dc5-82d2-59fb326c4074"
    }, {
    "address" : "/192.168.5.209:4526",
    "clusterType" : "router,message-processor",
    "lastChange" : 1350658037228,
    "latency" : 3,
    "pod" : "rea1gw001",
    "region" : "us-east-1",
    "serverType" : "message-processor",
    "state" : "CONNECTED",
    "uuid" : "f1c663a1-2bb8-469f-b5fd-69a5c5aa91c5"
    }, {
    "address" : "/192.168.5.29:4526",
    "clusterType" : "router,message-processor",
    "lastChange" : 1350623005057,
    "latency" : 1,
    "pod" : "rea1gw001",
    "region" : "us-east-1",
    "serverType" : "message-processor",
    "state" : " DISCONNECTED ",
    "uuid" : "4cfe932b-f644-4581-b1ae-df338af9c7ce"
    }, {
    "address" : "/192.168.4.182:4526",
    "clusterType" : "router,message-processor",
    "lastChange" : 1350657730535,
    "latency" : 1,
    "pod" : "rea1gw001",
    "region" : "us-east-1",
    "serverType" : "message-processor",
    "state" : "CONNECTED",
    "uuid" : "cba063d5-b8a4-409f-9e0b-f5d403e02091"
    }
  5. 请注意,IP 地址 192.168.5.29 已断开连接。重启服务器
    /&lt;inst_root&gt;/apigee/apigee-service/bin/apigee-service 边缘路由器重启

    注意:如果路由器处于断开连接状态,请从 ELB 中移除该路由器,然后 然后重启
  6. 重启后,检查其是否正常运行
    curl -v http://localhost:port/v1/cluster

    其中 port 为路由器的 8081 和消息处理器的 8082。

消息处理器

使用 用于监控系统健康检查和处理信息的 JConsole

请按照上文针对管理服务器所述的步骤操作。

注意:请确保使用端口 1101。

使用 Edge 应用 API 检查

对于路由器,请按照上述相同步骤操作。

注意:请确保使用端口 8082。

使用 JMX 消息流检查

对于管理服务器,请按照上述相同方法操作。

注意:请务必使用端口 - 1101。

Qpid 服务器

使用 JConsole 监控系统健康检查和处理信息

对于管理服务器,请按照上述相同方法操作。

注意:请务必使用 1102 端口。

使用 Edge Application API 检查

对于管理服务器,请按照上述相同方法操作。

注意:请确保使用端口 8083。以下 C网址 命令是 Qpid Server:

curl http://<qpid_IP>:8083/v1/servers/self

Postgres 服务器

使用 用于监控系统健康检查和处理信息的 JConsole

对于管理服务器,请按照上述相同方法操作。

注意:请务必使用端口 - 1103。

使用 Edge Application API 检查

对于管理服务器,请按照上述相同方法操作。

注意:请务必使用 8084 端口。以下 C网址 命令是 Postgres Server 支持:

curl http://<postgres_IP>:8084/v1/servers/self

使用 Edge 应用组织和环境检查

您可以检查在 Postgres Server 上进行初始配置的组织和环境名称 方法是发出以下 C网址 命令:

curl http:// <postgres_IP>:8084/v1/servers/self/organizations

注意:请确保使用端口 8084。

系统应显示组织和环境名称。

使用 Edge 应用 axstatus 勾选

您可以通过发出以下 C网址 来验证分析服务器的状态 命令。

curl -u userEmail:password http://<host>:<port>/v1/organizations/<orgname>/environments/<envname>/provisioning/axstatus

系统应为所有分析服务器显示“SUCCESS”状态。上述 C网址 的输出 如下所示:

{
  "environments" : [ {
    "components" : [ {
      "message" : "success at Thu Feb 28 10:27:38 CET 2013",
      "name" : "pg",
      "status" : "SUCCESS",
      "uuid" : "[c678d16c-7990-4a5a-ae19-a99f925fcb93]"
     }, {
      "message" : "success at Thu Feb 28 10:29:03 CET 2013",
      "name" : "qs",
      "status" : "SUCCESS",
      "uuid" : "[ee9f0db7-a9d3-4d21-96c5-1a15b0bf0adf]"
     } ],
    "message" : "",
    "name" : "prod"
   } ],
  "organization" : "acme",
  "status" : "SUCCESS"
}

PostgreSQL 数据库

使用 check_postgres.pl 脚本

要监控 PostgreSQL 数据库,您可以使用标准监控脚本 check_postgres.pl,可从以下网址获取: http://bucardo.org/wiki/Check_postgres.

注意:您需要在每个 Postgres 中安装脚本 check_postgres.pl 节点。

在运行脚本之前,请执行以下操作:

  1. 确保您已安装 perl-Time-HiRes.x86_64,这是一个 Perl 模块,用于实现高分辨率闹钟、休眠、gettimeofday 和间隔计时器。例如,您 可以使用以下命令进行安装:
    yum 安装 perl-Time-HiRes.x86_64

使用脚本 check_postgres.pl 进行的 API 调用的默认输出与 Nagios 兼容。安装脚本后,请执行以下检查:

  1. 数据库大小 - 检查数据库大小:
    check_postgres.pl -H 10.176.218.202 -db apigee -u apigee -dbpass postgres -include=apigee -action database_size --warning='800 GB' --active='900 GB'
  2. 到数据库的传入连接 - 检查到 的传入连接数 数据库,并与允许的最大连接数进行比较:
    check_postgres.pl -H 10.176.218.202 -db apigee -u apigee -dbpass postgres -操作后端
  3. 数据库可用性和性能 – 检查数据库是否正在运行 可用:
    check_postgres.pl -H 10.176.218.202 -db apigee -u apigee -dbpass postgres -操作连接
  4. 磁盘空间 - 检查磁盘空间:
    check_postgres.pl -H 10.176.218.202 -db apigee -u apigee -dbpass postgres -actiondisk_space --warning='80%' --referrer='90%'
  5. 初始配置的组织/环境 - 检查组织数量和 Postgres 节点中初始加入的环境:
    check_postgres.pl -H 10.176.218.202 -db apigee -u apigee -dbpass postgres -action=custom_query --query="select count(*) 的结果 来自 pg_tables,其中 schemaname='analytics'以及类似“%fact”的表名称--warning='80' --referrer='90'--valtype=integer

注意:请参阅 http://bucardo.org/check_postgres/check_postgres.pl.html ,如果您需要有关使用上述命令的任何帮助。

数据库检查

您可以验证是否在 PostgreSQL 数据库中创建了正确的表。使用以下命令登录 PostgreSQL 数据库:

psql -h /opt/apigee/var/run/apigee-postgresql/ -U apigee -d apigee

然后运行以下命令:

\d analytics."<org>.<env>.fact"

检查 postgres 的健康状况 进程

您可以通过调用以下 C网址 命令在 postgres 机器上执行 API 检查:

http://<postgres_IP>:8084/v1/servers/self/health/

注意:请务必使用端口 8084。

当 postgres 进程处于活动状态时,它会返回“ACTIVE”状态。如果 postgres 如果进程未启动并运行,则会返回“INACTIVE”状态。

Postgres 资源

Apache Cassandra

使用 JConsole - 监控任务统计信息

使用 JConsole 和以下服务网址监控 JMX 属性 (MBean) 通过 JMX 提供。

service:jmx:rmi:///jndi/rmi://<ip address>:7199/jmxrmi

其中 <ip address> 是 Cassandra 的 IP 服务器。

对 Cassandra 默认启用 JMX,对 Cassandra 的远程 JMX 访问不需要 密码。

要启用 JMX 身份验证以添加密码,请执行以下操作:

  1. 修改 /&lt;inst_root&gt;/apigee/customer/application/cassandra.properties。 如果该文件不存在,请创建一个。
  2. 将以下内容添加到该文件中:
    conf_cassandra-env_com.sun.management.jmxremote.authenticate=true
  3. 保存文件。
  4. 将以下文件从 $JAVA_HOME 目录复制到 /&lt;inst_root&gt;/apigee/data/apigee-cassandra/:
    cp ${JAVA_HOME}/lib/management/jmxremote.password.template $APIGEE_ROOT/data/apigee-cassandra/jmxremote.password

    cp ${JAVA_HOME}/lib/management/jmxremote.access $APIGEE_ROOT/data/apigee-cassandra/jmxremote.access
  5. 修改 jmxremote.password 和 将用户名和密码添加到该文件中:
    Cassandra 密码

    其中,password 是 JMX 密码。
  6. 修改 jmxremote.access,并添加以下角色:
    cassandra readwrite
  7. 确保文件归“apigee”所有文件模式为 400:
    &gt;chown apigee:apigee /&lt;inst_root&gt;/apigee/data/apigee-cassandra/jmxremote.*
    &gt;chmod 400 /<inst_root>/apigee/data/apigee-cassandra/jmxremote。*
  8. 在 Cassandra 上运行 configure
    > /<inst_root>/apigee/apigee-service/bin/apigee-service apigee-cassandra configure
  9. 重启 Cassandra:
    > /<inst_root>/apigee/apigee-service/bin/apigee-service apigee-cassandra restart

如需稍后停用身份验证,请执行以下操作:

  1. 修改 /&lt;inst_root&gt;/apigee/customer/application/cassandra.properties
  2. 移除文件中的以下行:
    conf_cassandra-env_com.sun.management.jmxremote.authenticate=true
  3. 在 Cassandra 上运行 configure:
    > /<inst_root>/apigee/apigee-service/bin/apigee-service apigee-cassandra configure
  4. 重启 Cassandra:
    &gt; /<inst_root>/apigee/apigee-service/bin/apigee-service apigee-cassandra 重启

Cassandra JMX 统计信息

JMX MBean

JMX 属性

ColumnFamilies/apprepo/environments

ColumnFamilies/apprepo/organizations

ColumnFamilies/apprepo/apiproxy_revisions

ColumnFamilies/apprepo/apiproxies

ColumnFamilies/audit/audits

ColumnFamilies/audit/audits_ref

PendingTasks

MemtableColumnsCount

MemtableDataSize

ReadCount

RecentReadLatencyMicros

TotalReadLatencyMicros

WriteCount

RecentWriteLatencyMicros

TotalWriteLatencyMicros

TotalDiskSpaceUsed

LiveDiskSpaceUsed

LiveSSTableCount

BloomFilterFalsePositives

RecentBloomFilterFalseRatio

BloomFilterFalseRatio

使用 nodetool 实用程序 管理集群节点

nodetool 实用程序是 Cassandra 的命令行界面,用于管理 集群节点该实用程序可在 &lt;inst_root&gt;/apigee/apigee-cassandra/bin 中找到。

如需详细了解 nodetool 实用程序,请参阅 http://www.datastax.com/docs/1.0/references/nodetool

可以在所有 Cassandra 集群节点上进行以下调用:

  1. 常规环信息(也适用于单个 Cassandra 节点):查找 “向上”和“Normal”(正常)所有节点
    [host]# nodetool -h localhost 响铃

    上述命令的输出如下所示:
    地址 DC 机架状态状态负荷 令牌
    192.168.124.201 dc1 ra1 正常大小 1.67 MB 33.33%
    192.168.124.202 dc1 ra1 正常大小 1.68 MB 33.33% 56713727820156410577229101238628035242
    192.168.124.203 dc1 ra1 正常大小 1.67 MB 33.33% 113427455640312821154458202477256070484
  2. 节点的一般信息(每个节点调用一次)
    nodetool -h localhost info

    上述命令的输出如下所示:
    令牌 : 0
    Gossip 活跃 : true
    负载 : 1.67 MB
    生成代号 : 1361968765
    运行时间(秒):78108
    堆内存(MB):46,80 / 772,00
    数据中心 : dc1
    机架 : ra1
    异常 : 0
  3. Thrift 服务器的状态(提供客户端 API)
    host]# nodetool -h localhost statusthrift

    上述命令的输出显示状态为“running”。
  4. 数据流操作的状态:观察 cassandra 的流量 nodes
    nodetool -h localhost netstats 192.168.124.203

    上述命令的输出如下所示:
    模式:NORMAL
    没有流式传输到 /192.168.124.203
    的内容 没有来自 /192.168.124.203
    的流式传输内容 池名称处于活跃、待处理状态
    命令无 0 1688 年
    回复不适用 0 292277

Cassandra 监控(界面)

请参阅 Datastax OpsCenter 网址:http://www.datastax.com/products/opscenter

Cassandra 资源

请参阅以下网址:http://www.datastax.com/docs/1.0/operations/monitoring

Apache ZooKeeper

检查 ZooKeeper 状态

  1. 确保 ZooKeeper 进程正在运行。ZooKeeper 将 PID 文件写入 &lt;inst_root&gt;/apigee/var/run/apigee-zookeeper/apigee-zookeeper.pid
  2. 测试 ZooKeeper 端口,确保您可以与端口 2181 和端口 2181 建立 TCP 连接 3888。
  3. 确保您可以从 ZooKeeper 数据库中读取值。使用 ZooKeeper 连接 客户端库(或 /&lt;inst_root&gt;/apigee/apigee-zookeeper/bin/zkCli.sh) 并从数据库中读取值。
  4. 查看状态:
    &gt; /<inst_root>/apigee/apigee-service/bin/apigee-service apigee-zookeeper 状态

使用 ZooKeeper Four Letter Words

您可以通过一小组命令(四个字母的单词)监控 ZooKeeper,这些命令会使用 netcat (nc) 或 telnet 发送到端口 2181。

如需详细了解 ZooKeeper 命令,请参阅:http://zookeeper.apache.org/doc/r3.1.2/zookeeperAdmin.html#sc_zkCommands

例如:

  • srvr:列出服务器的完整详细信息。
  • stat:列出简要详情 服务器和连接的客户端

您可以发出以下命令到 ZooKeeper 端口:

  1. 运行四个字母的命令 ruok 以测试服务器是否在非错误状态下运行。答 成功响应会返回“imok”。
    echo ruok |nc <主机> 2181

    返回:
    Imok
  2. 运行由四个字母组成的命令 stat 列出服务器性能和已连接的客户端 统计信息。
    echo 统计信息 |nc <主机> 2181

    返回:
    Zookeeper 版本:3.4.5-1392090、 构建于 2012 年 9 月 30 日 17:52 (GMT)
    客户:
    /0:0:0:0:0:0:0:1:33467[0](queued=0,recved=1,sent=0)
    /192.168.124.201:42388[1](queued=0,recved=8433,sent=8433)
    /192.168.124.202:42185[1](queued=0,recved=1339,sent=1347)
    /192.168.124.204:39296[1](queued=0,recved=7688,sent=7692)
    延迟时间(最小值/平均值/最大值):0/0/128
    接收时间:26144
    已发送:26160
    连接:4
    未完成:0
    Zxid:0x2000002c2
    模式:关注者
    节点数:283

    注意:有时,需要查看 ZooKeeper 是否处于 Mode:leader、 关注者或观察者。
  3. 如果 netcat (nc) 不可用,您可以使用 Python 作为替代方案。创建一个名为 zookeeper.py 的文件,其中包含以下内容:
    import time, socket,
    sys c = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    c.connect((sys.argv[1], 2181))
    c.send(sys.argv[2])
    time.sleep(0.1)
    print c.recv(512)


    现在,运行以下 Python 代码行:
    python zookeeper.py 192.168.124.201 ruok
    python zookeeper.py 192.168.124.201 stat

OpenLDAP

LDAP 级别测试

您可以监控 OpenLDAP,以查看特定请求是否得到正确处理。换句话说,检查是否有特定搜索会返回正确的结果。

  1. 使用 ldapsearchyum 安装 openldap-clients) 来查询系统管理员条目。此条目用于对所有 API 调用进行身份验证。
    ldapsearch -b &quot;uid=admin,ou=users,ou=global,dc=apigee,dc=com&quot;-x -W -D "cn=manager,dc=apigee,dc=com"- 小时 ldap://localhost:10389 -LLL

    然后,系统会提示您输入 LDAP 管理员密码:
    输入 LDAP 密码

    输入密码后,您会看到以下形式的回复:
    dn: uid=admin,ou=users,ou=global,dc=apigee,dc=com
    objectClass:organizationPerson
    objectClass:person
    objectClass:inetOrgPerson
    objectClass:top
    uid:admin
    cn:管理员
    sn:管理员
    用户密码:e1NTSEF9bS9xbS9RbVNXSFFtUWVsU1F0c3BGL3BQMkhObFp2eDFKUytmZVE9PQ=
    =
    邮寄地址:opdk@apigee.com
  2. 检查管理服务器是否仍连接到 LDAP 问题:
    curl -u &lt;userEMail&gt;:&lt;password&gt;http://localhost:8080/v1/users/&lt;ADMIN&gt;

    返回:
    {
    &quot;emailId&quot;:<ADMIN>,
    “firstName”: "管理员",
    “lastName”:“管理员”
    }

您还可以监控 OpenLDAP 缓存,以帮助减少磁盘访问次数 从而提升系统性能。在 OpenLDAP 服务器中监控并调整缓存大小可能会严重影响目录服务器的性能。您可以查看 文件 (&lt;inst_root&gt;/apigee/var/log)以获取 有关缓存的信息