无法启动 ZooKeeper

<ph type="x-smartling-placeholder"></ph> 您正在查看 Apigee Edge 文档。
转到 Apigee X 文档
信息

问题

无法启动 ZooKeeper 进程。

错误消息

当您尝试启动 ZooKeeper 进程时,系统会返回以下错误消息 表示无法启动 ZooKeeper:

+ apigee-service apigee-zookeeper status
apigee-service: apigee-zookeeper: Not running (DEAD)
apigee-all: Error: status failed on [apigee-zookeeper]

可能的原因

下表列出了此问题的可能原因:

原因 适用于
ZooKeeper myid 配置错误 Edge Private Cloud 用户
ZooKeeper 端口正在使用中 Edge Private Cloud 用户
apigee-zookeeper.pid 文件中的进程 ID 不正确 Edge Private Cloud 用户
ZooKeeper 领导者选举失败 Edge Private Cloud 用户

点击表格中的链接可查看针对该问题的可能解决方案。

ZooKeeper myid 配置有误

以下部分将简要介绍 myid 文件,并说明如何诊断和 解决配置错误问题。

myid 文件概览

在每个 ZooKeeper 节点上,都有两个文件:

  1. /opt/apigee/apigee-zookeeper/conf/zoo.cfg 文件,其中包含一系列 集群中所有 ZooKeeper 节点的 IP 地址。

    例如,如果 /opt/apigee/apigee-zookeeper/conf/zoo.cfg 包含 集群中 3 个 ZooKeeper 节点的 IP 地址如下所示:

    server.1=11.11.11.11:2888:3888
    server.2=22.22.22.22:2888:3888
    server.3=33.33.33.33:2888:3888
    
  2. /opt/apigee/data/apigee-zookeeper/data/myid 文件包含一行 文本,该文本对应于该特定 ZooKeeper 节点的服务器编号。CANNOT TRANSLATE 服务器 1 将包含文本“1”仅此而已。ID 在集成中必须是唯一的 且应介于 1 到 255 之间。

    例如,在 ZooKeeper server.1 上, /opt/apigee/data/apigee-zookeeper/data/myid 文件应仅包含文本 1 如下所示:

    $ cat myid
    1
    

诊断

  1. 检查 ZooKeeper 日志 /opt/apigee/var/log/apigee-zookeeper/zookeeper.log 错误。
  2. 如果您看到类似于“连接因 id #, 我的 id = # 而中断”这样的警告消息, 如下图所示,则此问题可能的原因是服务器 # myid 文件中的配置文件配置有误或已损坏。
    [myid:2] - WARN [RecvWorker:2:QuorumCnxManager$RecvWorker@762] -
      Connection broken for id 2, my id = 2, error = java.io.EOFException
        at java.io.DataInputStream.readInt(DataInputStream.java:375)
        at org.apache.zookeeper.server.quorum.QuorumCnxManager$RecvWorker.
          run(QuorumCnxManager.java:747)
    
  3. 查看 /opt/apigee/apigee-zookeeper/conf/zoo.cfg 文件并记下 server.#。
  4. 检查 /opt/apigee/data/apigee-zookeeper/data/myid 文件,看看文本 与第 2 步中记下的 server.# 匹配。
  5. 如果不匹配,则说明您已确定导致 ZooKeeper 无法运行的原因 start 的值。

分辨率

如果 myid 文件配置不正确,则编辑 myid 文件并将值替换为 表示 zoo.cfg 中代表 server.# 参数的正确文本。

正在使用 ZooKeeper 端口

诊断

  1. 检查 ZooKeeper 日志 /opt/apigee/var/log/apigee-zookeeper/zookeeper.log 错误。
  2. 如果您发现 java.net.BindException: Address already in use 出现异常, 如下图所示,这表示 ZooKeeper 另一个进程正在使用端口 2181。因此,ZooKeeper 无法启动。
    2017-04-26 07:00:10,420 [myid:3] - INFO  [main:NIOServerCnxnFactory@94] -
      binding to port 0.0.0.0/0.0.0.0:2181
    2017-04-26 07:00:10,421 [myid:3] - ERROR [main:QuorumPeerMain@89] -
      Unexpected exception, exiting abnormally
      java.net.BindException: Address already in use
        at sun.nio.ch.Net.bind0(Native Method)
        at sun.nio.ch.Net.bind(Net.java:433)
        at sun.nio.ch.Net.bind(Net.java:425)
        at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:223)
        at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74)
        at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:67)
        at org.apache.zookeeper.server.NIOServerCnxnFactory.configure(NIOServerCnxnFactory.java:95)
        at org.apache.zookeeper.server.quorum.QuorumPeerMain.runFromConfig(QuorumPeerMain.java:130)
        at org.apache.zookeeper.server.quorum.QuorumPeerMain.initializeAndRun(QuorumPeerMain.java:111)
        at org.apache.zookeeper.server.quorum.QuorumPeerMain.main(QuorumPeerMain.java:78)
    
  3. 使用以下 netstat 命令确认 ZooKeeper 端口 2181 确实正在使用中 由另一个进程启动:
    netstat -an | grep 2181
    

分辨率

如果 ZooKeeper 端口 2181 仍在使用中,请按照以下步骤解决此问题 问题:

  1. 使用 netstat 命令查找保留端口 2181 的进程。 终止使用 ZooKeeper 端口 2181 的进程:
    $ netstat -antp | grep 2181
    tcp        0      0 0.0.0.0:2181            0.0.0.0:*
    LISTEN      28016/java <defunct>
    $ kill -9 28016
    
  2. 清理 pid 和锁定文件(如果存在):
    /opt/apigee/var/run/apigee-zookeeper/apigee-zookeeper.pid
    /opt/apigee/var/run/apigee-zookeeper/apigee-zookeeper.lock
    
  3. 重启 ZooKeeper:
    /opt/apigee/apigee-service/bin/apigee-service apigee-zookeeper restart
    

apigee-zookeeper.pid 文件中的进程 ID 不正确

当您尝试停止/重启 ZooKeeper 时,可能会失败, apigee-zookeeper.pid 文件包含旧版/错误的 pid,而非当前 pid 运行 ZooKeeper 进程如果 ZooKeeper 进程意外终止或 由于某种原因突然将 apigee-zookeeper.pid 文件删除。

诊断

  1. 通过运行 ps 命令:
    ps -ef | grep zookeeper
    
  2. 检查 /opt/apigee/var/run/apigee-ZooKeeper/apigee-zookeeper.pid 文件 存在。如果该文件存在,请记下写入该文件的进程 ID。
  3. 比较从第 1 步和第 2 步获取的进程 ID。如果它们不同,原因在于 apigee-zookeeper.pid file. 中的进程 ID 不正确

分辨率

  1. 修改 apigee-zookeeper.pid 文件,并将错误的进程 ID 替换为正确的进程 ID 从 ps 命令获得的进程 ID(上述第 1 步)。
  2. 重启 ZooKeeper:
    /opt/apigee/apigee-service/bin/apigee-service apigee-zookeeper restart
    

ZooKeeper 领导者选举失败

诊断

诊断方法

  1. 检查 ZooKeeper 日志 /opt/apigee/var/log/apigee-zookeeper/zookeeper.log 错误。
  2. 检查是否有任何配置更改可能导致 ZooKeeper 选择 失败。
  3. 查看/opt/apigee/apigee-zookeeper/conf/zoo.cfg并确保 集群中的 ZooKeeper 具有 server.# 参数的正确数量和 IP 地址。 另请注意,要成功举行领导者选举,至少需要 3 名选民 而选民数量应为奇数。如果选民人数过少,比如只有 2 名 选民,就无法在仅有 2 名选民中通过票数选出领导者。

分辨率

通常,ZooKeeper 选举失败是由 myid 配置错误导致的。使用 ZooKeeper myid 配置有误,旨在解决选举失败问题。

如果问题仍然存在,并且需要进一步诊断,请与 Apigee Edge 支持团队联系。