<ph type="x-smartling-placeholder"></ph>
您正在查看 Apigee Edge 文档。
转到
Apigee X 文档。 信息
问题
无法启动 ZooKeeper 进程。
错误消息
当您尝试启动 ZooKeeper 进程时,系统会返回以下错误消息 表示无法启动 ZooKeeper:
+ apigee-service apigee-zookeeper status apigee-service: apigee-zookeeper: Not running (DEAD) apigee-all: Error: status failed on [apigee-zookeeper]
可能的原因
下表列出了此问题的可能原因:
原因 | 适用于 |
---|---|
ZooKeeper myid 配置错误 | Edge Private Cloud 用户 |
ZooKeeper 端口正在使用中 | Edge Private Cloud 用户 |
apigee-zookeeper.pid 文件中的进程 ID 不正确 | Edge Private Cloud 用户 |
ZooKeeper 领导者选举失败 | Edge Private Cloud 用户 |
点击表格中的链接可查看针对该问题的可能解决方案。
ZooKeeper myid 配置有误
以下部分将简要介绍 myid 文件,并说明如何诊断和 解决配置错误问题。
myid 文件概览
在每个 ZooKeeper 节点上,都有两个文件:
/opt/apigee/apigee-zookeeper/conf/zoo.cfg
文件,其中包含一系列 集群中所有 ZooKeeper 节点的 IP 地址。例如,如果
/opt/apigee/apigee-zookeeper/conf/zoo.cfg
包含 集群中 3 个 ZooKeeper 节点的 IP 地址如下所示:server.1=11.11.11.11:2888:3888 server.2=22.22.22.22:2888:3888 server.3=33.33.33.33:2888:3888
/opt/apigee/data/apigee-zookeeper/data/myid
文件包含一行 文本,该文本对应于该特定 ZooKeeper 节点的服务器编号。CANNOT TRANSLATE 服务器 1 将包含文本“1”仅此而已。ID 在集成中必须是唯一的 且应介于 1 到 255 之间。例如,在 ZooKeeper server.1 上,
/opt/apigee/data/apigee-zookeeper/data/myid
文件应仅包含文本 1 如下所示:$ cat myid 1
诊断
- 检查 ZooKeeper 日志
/opt/apigee/var/log/apigee-zookeeper/zookeeper.log
错误。 - 如果您看到类似于“连接因 id #, 我的 id = # 而中断”这样的警告消息,
如下图所示,则此问题可能的原因是服务器 #
myid 文件中的配置文件配置有误或已损坏。
[myid:2] - WARN [RecvWorker:2:QuorumCnxManager$RecvWorker@762] - Connection broken for id 2, my id = 2, error = java.io.EOFException at java.io.DataInputStream.readInt(DataInputStream.java:375) at org.apache.zookeeper.server.quorum.QuorumCnxManager$RecvWorker. run(QuorumCnxManager.java:747)
- 查看
/opt/apigee/apigee-zookeeper/conf/zoo.cfg
文件并记下 server.#。 - 检查
/opt/apigee/data/apigee-zookeeper/data/myid
文件,看看文本 与第 2 步中记下的 server.# 匹配。 - 如果不匹配,则说明您已确定导致 ZooKeeper 无法运行的原因 start 的值。
分辨率
如果 myid 文件配置不正确,则编辑 myid 文件并将值替换为 表示 zoo.cfg 中代表 server.# 参数的正确文本。
正在使用 ZooKeeper 端口
诊断
- 检查 ZooKeeper 日志
/opt/apigee/var/log/apigee-zookeeper/zookeeper.log
错误。 - 如果您发现
java.net.BindException: Address already in use
出现异常, 如下图所示,这表示 ZooKeeper 另一个进程正在使用端口 2181。因此,ZooKeeper 无法启动。2017-04-26 07:00:10,420 [myid:3] - INFO [main:NIOServerCnxnFactory@94] - binding to port 0.0.0.0/0.0.0.0:2181 2017-04-26 07:00:10,421 [myid:3] - ERROR [main:QuorumPeerMain@89] - Unexpected exception, exiting abnormally java.net.BindException: Address already in use at sun.nio.ch.Net.bind0(Native Method) at sun.nio.ch.Net.bind(Net.java:433) at sun.nio.ch.Net.bind(Net.java:425) at sun.nio.ch.ServerSocketChannelImpl.bind(ServerSocketChannelImpl.java:223) at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:74) at sun.nio.ch.ServerSocketAdaptor.bind(ServerSocketAdaptor.java:67) at org.apache.zookeeper.server.NIOServerCnxnFactory.configure(NIOServerCnxnFactory.java:95) at org.apache.zookeeper.server.quorum.QuorumPeerMain.runFromConfig(QuorumPeerMain.java:130) at org.apache.zookeeper.server.quorum.QuorumPeerMain.initializeAndRun(QuorumPeerMain.java:111) at org.apache.zookeeper.server.quorum.QuorumPeerMain.main(QuorumPeerMain.java:78)
- 使用以下 netstat 命令确认 ZooKeeper 端口 2181 确实正在使用中
由另一个进程启动:
netstat -an | grep 2181
分辨率
如果 ZooKeeper 端口 2181 仍在使用中,请按照以下步骤解决此问题 问题:
- 使用
netstat
命令查找保留端口 2181 的进程。 终止使用 ZooKeeper 端口 2181 的进程:$ netstat -antp | grep 2181 tcp 0 0 0.0.0.0:2181 0.0.0.0:* LISTEN 28016/java <defunct> $ kill -9 28016
- 清理 pid 和锁定文件(如果存在):
/opt/apigee/var/run/apigee-zookeeper/apigee-zookeeper.pid /opt/apigee/var/run/apigee-zookeeper/apigee-zookeeper.lock
- 重启 ZooKeeper:
/opt/apigee/apigee-service/bin/apigee-service apigee-zookeeper restart
apigee-zookeeper.pid 文件中的进程 ID 不正确
当您尝试停止/重启 ZooKeeper 时,可能会失败,
apigee-zookeeper.pid
文件包含旧版/错误的 pid,而非当前 pid
运行 ZooKeeper 进程如果 ZooKeeper 进程意外终止或
由于某种原因突然将 apigee-zookeeper.pid
文件删除。
诊断
- 通过运行
ps
命令:ps -ef | grep zookeeper
- 检查
/opt/apigee/var/run/apigee-ZooKeeper/apigee-zookeeper.pid
文件 存在。如果该文件存在,请记下写入该文件的进程 ID。 - 比较从第 1 步和第 2 步获取的进程 ID。如果它们不同,原因在于
apigee-zookeeper.pid file.
中的进程 ID 不正确
分辨率
- 修改 apigee-zookeeper.pid 文件,并将错误的进程 ID 替换为正确的进程 ID 从 ps 命令获得的进程 ID(上述第 1 步)。
- 重启 ZooKeeper:
/opt/apigee/apigee-service/bin/apigee-service apigee-zookeeper restart
ZooKeeper 领导者选举失败
诊断
诊断方法:
- 检查 ZooKeeper 日志
/opt/apigee/var/log/apigee-zookeeper/zookeeper.log
错误。 - 检查是否有任何配置更改可能导致 ZooKeeper 选择 失败。
- 查看
/opt/apigee/apigee-zookeeper/conf/zoo.cfg
并确保 集群中的 ZooKeeper 具有 server.# 参数的正确数量和 IP 地址。 另请注意,要成功举行领导者选举,至少需要 3 名选民 而选民数量应为奇数。如果选民人数过少,比如只有 2 名 选民,就无法在仅有 2 名选民中通过票数选出领导者。
分辨率
通常,ZooKeeper 选举失败是由 myid 配置错误导致的。使用 ZooKeeper myid 配置有误,旨在解决选举失败问题。
如果问题仍然存在,并且需要进一步诊断,请与 Apigee Edge 支持团队联系。