查看 Apigee Edge 說明文件。
前往
Apigee X說明文件。 資訊
問題
ZooKeeper 連線問題可能出現以下各種症狀:
- API Proxy 部署錯誤
- Management API 呼叫失敗,並發生 5XX 錯誤
- 路由器或訊息處理器無法啟動
- Analytics 元件回報 system.logs 中的連線中斷情形
錯誤訊息
系統在發生問題時可能會發現 與 ZooKeeper 節點的連線中斷。
- 部署 API Proxy 時,管理伺服器記錄中會傳回以下錯誤
失敗 (因 ZooKeeper 連線損失):
org: env: main INFO ZOOKEEPER - ZooKeeperServiceImpl.exists() : Retry path existence path: /regions/dc-1/pods/analytics/servers/692afe93-8010-45c6-b37d-e4e05b6b2eb5/reachable, reason: KeeperErrorCode = ConnectionLoss org: env: main ERROR ZOOKEEPER - ZooKeeperServiceImpl.exists() : Could not detect existence of path: /regions/dc-1/pods/analytics/servers/692afe93-8010-45c6-b37d-e4e05b6b2eb5/reachable , reason: KeeperErrorCode = ConnectionLoss org: env: main ERROR KERNEL.DEPLOYMENT - ServiceDeployer.startService() : ServiceDeployer.deploy() : Got a life cycle exception while starting service [ServerRegistrationService, Error while checking path existence for path : /regions/dc-1/pods/analytics/servers/692afe93-8010-45c6-b37d-e4e05b6b2eb5/reachable] : com.apigee.zookeeper.ZooKeeperException{ code = zookeeper.ErrorCheckingPathExis tence, message = Error while checking path existence for path : /regions/dc-1/pods/analytics/servers/692afe93-8010-45c6-b37d-e4e05b6b2eb5/reachable, associated contexts = []} 2015-03-25 10:22:39,811 org: env: main ERROR KERNEL - MicroKernel.deployAll() : MicroKernel.deployAll() : Error in deploying the deployment : EventService com.apigee.zookeeper.ZooKeeperException: Error while checking path existence for path : /regions/dc-1/pods/analytics/servers/692afe93-8010-45c6-b37d-e4e05b6b2eb5/reachable at com.apigee.zookeeper.impl.ZooKeeperServiceImpl.exists(ZooKeeperServiceImpl.java:339) ~[zookeeper-1.0.0.jar:na] at com.apigee.zookeeper.impl.ZooKeeperServiceImpl.exists( ZooKeeperServiceImpl.java:323) ~[zookeeper-1.0.0.jar:na] at ... snipped
- 在啟動期間,路由器和訊息處理器會連線至 ZooKeeper。如果有
發生連線問題時,這些元件將無法從
錯誤:
2017-08-01 23:20:00,404 CuratorFramework-0 ERROR o.a.c.f.i.CuratorFrameworkImpl - CuratorFrameworkImpl.logError() : Background operation retry gave up org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss at org.apache.zookeeper.KeeperException.create(KeeperException.java:99) ~[zookeeper-3.4.6.jar:3.4.6-1569965] at org.apache.curator.framework.imps.CuratorFrameworkImpl.checkBackgroundRetry(CuratorFrameworkImpl.java:710) [curator-framework-2.5.0.jar:na] at org.apache.curator.framework.imps.CuratorFrameworkImpl.performBackgroundOperation(CuratorFrameworkImpl.java:827) [curator-framework-2.5.0.jar:na] at org.apache.curator.framework.imps.CuratorFrameworkImpl.backgroundOperationsLoop(CuratorFrameworkImpl.java:793) [curator-framework-2.5.0.jar:na] at org.apache.curator.framework.imps.CuratorFrameworkImpl.access$400(CuratorFrameworkImpl.java:57) [curator-framework-2.5.0.jar:na] at org.apache.curator.framework.imps.CuratorFrameworkImpl$4.call(CuratorFrameworkImpl.java:275) [curator-framework-2.5.0.jar:na] at java.util.concurrent.FutureTask.run(FutureTask.java:266) [na:1.8.0_131] at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) [na:1.8.0_131] at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_131] at java.lang.Thread.run(Thread.java:748) [na:1.8.0_131]
- Edge UI 可能會顯示以下錯誤訊息,指出無法檢查
API Proxy 的部署狀態:
Error Fetching Deployments Error while checking path existence for path: path
可能原因
下表列出這個問題的可能原因:
原因 | 適用於 |
---|---|
不同資料中心的網路連線問題 | Edge Private Cloud 使用者 |
ZooKeeper 節點未處理要求 | Edge Private Cloud 使用者 |
按一下表格中的連結,查看可能的解決方式。
不同資料中心之間的網路連線問題
診斷
ZooKeeper 叢集可包含橫跨多個區域/資料中心的節點,例如: DC-1 和 DC-2。典型的 Apigee Edge 2 DC 拓撲將有:
- ZooKeeper 伺服器 1、2 和 3 成為 DC-1 的選民
- ZooKeeper 4 和 5 同時是選民,以及 ZooKeeper 6 擔任 DC-2 的觀察者。
如果 DC-1 區域故障或 DC-1 和 DC-2 之間的網路連線中斷,請 ZooKeeper 節點無法在 DC-2 中選擇新的領導者,也無法與領導者通訊 節點。ZooKeeper 觀察者無法選出新的領導者,而 DC-2 中剩餘的兩位選民 派出至少 3 個選民節點來選出新的領導者。因此,DC-2 的 ZooKeepers 無法處理任何要求。DC-2 中剩餘的 ZooKeeper 節點將繼續迴圈 不斷嘗試聯繫 ZooKeeper 選民來尋找領導者。
解析度
請採用下列解決方案,以特定順序解決這個問題。
如果嘗試這些解決方案後仍無法解決問題,請 請與 Apigee 支援團隊聯絡。
解決方案 1
- 與網路管理員合作,修復 這些功能以虛擬方式整合為 類似實體資料中心的資源
- 當 ZooKeeper 團隊能夠跨越資料中心之間進行通訊時,選擇了 ZooKeeper 負責人,節點應該健康狀態良好,並且能夠處理要求。
解決方案 2
- 如果網路連線需要一段時間才能修復,則建議重新設定
位於關閉區域的 ZooKeeper 節點。例如,重新設定 ZooKeeper
位於 DC-2 的叢集,這個區域中的 3 個 ZooKeeper 節點都是選民,並移除
DC-1 區域 ZooKeepers 的
zoo.cfg
server.#
。- 在以下範例中,
zoo.cfg
會為 DC-1 使用us-ea
的 2 個區域設定節點 表示美國東部和 DC-2 的主機名稱使用us-wo
主機名稱,表示美國西部區域。 (注意:只會顯示相關設定):server.1=zk01ea.us-ea.4.apigee.com:2888:3888 server.2=zk02ea.us-ea.4.apigee.com:2888:3888 server.3=zk03ea.us-ea.4.apigee.com:2888:3888 server.4=zk04wo.us-wo.4.apigee.com:2888:3888 server.5=zk05wo.us-wo.4.apigee.com:2888:3888 server.6=zk06wo.us-wo.4.apigee.com:2888:3888:observer
在上述範例中,按照下列方式重新設定
zoo.cfg
:server.1=zk04wo.us-wo.4.apigee.com:2888:3888 server.2=zk05wo.us-wo.4.apigee.com:2888:3888 server.3=zk06wo.us-wo.4.apigee.com:2888:3888
- 透過含有設定的程式碼,
建立含有以下內容的檔案
/opt/apigee/customer/application/zookeeper.properties
:conf_zoo_quorum=server.1=zk04wo.us-wo.4.apigee.com:2888:3888\ \nserver.2=zk05wo.us-wo.4.apigee.com:2888:3888\ \nserver.3=zk06wo.us-wo.4.apigee.com:2888:3888\
在上述指令中,系統會移除美國東部的節點,並將美國西部節點升級為
:observer
註解移除時的投票者。 - 在以下範例中,
- 備份
/opt/apigee/apigee-zookeeper/conf/zoo.cfg
以下版本的資料/opt/apigee/customer/application/zookeeper.properties
。網路連線備份時,這些檔案將用來還原預設值 能跨越資料中心之間的距離
停用觀察器節點的觀察器標記法。方法如下 將以下設定新增至
/opt/apigee/customer/application/zookeeper.properties
的頂端:conf_zoo_peertype=
-
按照下列方式編輯
/opt/apigee/data/apigee-zookeeper/data/myid
檔案:- 針對
server.1
,將myid
內的項目從 4 變更為 1。 - 針對
server.2
,將myid
從 5 變更為 2。 - 針對
server.3
,將myid
從 6 變更為 3。
- 針對
- 在重新設定 ZooKeeper 的區域重新啟動 ZooKeeper 節點 物件
- 在以下位置的所有 ZooKeeper 節點,重複執行步驟 1b 到步驟 5 的設定 DC-2。
- 確認節點與勝出版本:
$ echo srvr | nc zk04wo.us-wo.4.apigee.com 2181 > echo srvr | nc zk05wo.us-wo.4.apigee.com 2181 > echo srvr | nc zk06wo.us-wo.4.apigee.com 2181
在這項指令的輸出內容中,會包含「mode」一行後面接著「領導者」表示 是領先者,或「追蹤者」可以的話
重新建立資料中心之間的網路時,ZooKeeper 設定 可在 DC-2 的 ZooKeeper 節點上還原變更。
解決方案 #3
- 如果叢集內的 ZooKeeper 節點未啟動,請重新啟動該節點。
- 查看 ZooKeeper 記錄,以找出 ZooKeeper 節點停止的原因。
下列目錄提供 ZooKeeper 記錄:
$ cd /opt/apigee/var/log/apigee-zookeeper $ ls -l total 188 -rw-r--r--. 1 apigee apigee 2715 Jul 22 19:51 apigee-zookeeper.log -rw-r--r--. 1 apigee apigee 10434 Jul 17 19:51 config.log -rw-r--r--. 1 apigee apigee 169640 Aug 1 19:51 zookeeper.log
- 與 Apigee 支援團隊聯絡,並提供 ZooKeeper 記錄檔,以排解任何可能停止的 ZooKeeper 節點原因。
ZooKeeper 節點未處理要求
整體中的 ZooKeeper 節點健康狀態不良,無法回應用戶端 要求。可能的原因如下:
- 節點已停止且未重新啟動。
- 節點已重新啟動,但並未啟用自動啟動功能。
- 節點系統負載導致節點故障或健康狀態不良。
診斷
- 針對每個 ZooKeeper 節點執行下列 ZooKeeper 健康狀態檢查指令,以及
查看輸出結果:
-
敬上$ echo "ruok" | nc localhost 2181
輸出內容範例:
$ echo "ruok" | nc localhost 2181 imok
-
echo srvr | nc localhost 2181
請查看模式,判斷 ZooKeeper 節點是主要或追蹤者。
單一 ZooKeeper 節點中所有全部的輸出範例:
$ echo srvr | nc localhost 2181 ZooKeeper version: 3.4.5-1392090, built on 09/30/2012 17:52 GMT Latency min/avg/max: 0/0/88 Received: 4206601 Sent: 4206624 Connections: 8 Outstanding: 0 Zxid: 0x745 Mode: standalone Node count: 282
-
$ echo mntr | nc localhost 2181
這個指令會列出 ZooKeeper 變數,可用於檢查 ZooKeeper 叢集
輸出內容範例:
敬上$ echo mntr | nc localhost 2181 zk_version 3.4.5-1392090, built on 09/30/2012 17:52 GMT zk_avg_latency 0 zk_max_latency 88 zk_min_latency 0 zk_packets_received 4206750 zk_packets_sent 4206773 zk_num_alive_connections 8 zk_outstanding_requests 0 zk_server_state standalone zk_znode_count 282 zk_watch_count 194 zk_ephemerals_count 1 zk_approximate_data_size 22960 zk_open_file_descriptor_count 34 zk_max_file_descriptor_count 4096
-
$ echo stat | nc localhost 2181
這個指令會列出與效能和已連線用戶端相關的統計資料。
輸出內容範例:
敬上$ echo stat | nc localhost 2181 ZooKeeper version: 3.4.5-1392090, built on 09/30/2012 17:52 GMT Clients: /10.128.0.8:54152[1](queued=0,recved=753379,sent=753385) /10.128.0.8:53944[1](queued=0,recved=980269,sent=980278) /10.128.0.8:54388[1](queued=0,recved=457094,sent=457094) /10.128.0.8:54622[1](queued=0,recved=972938,sent=972938) /10.128.0.8:54192[1](queued=0,recved=150843,sent=150843) /10.128.0.8:44564[1](queued=0,recved=267332,sent=267333) /127.0.0.1:40820[0](queued=0,recved=1,sent=0) /10.128.0.8:53960[1](queued=0,recved=150844,sent=150844) Latency min/avg/max: 0/0/88 Received: 4206995 Sent: 4207018 Connections: 8 Outstanding: 0 Zxid: 0x745 Mode: standalone Node count: 282
-
$ echo cons | nc localhost 2181
這個指令可提供 ZooKeeper 連線的延伸詳細資料。
輸出內容範例:
敬上$ echo cons | nc localhost 2181 /127.0.0.1:40864[0](queued=0,recved=1,sent=0) /10.128.0.8:54152[1](queued=0,recved=753400,sent=753406,sid=0x15d521a96d40007, lop=PING,est=1500321588647,to=40000,lcxid=0x972e9,lzxid=0x745,lresp=1502334173174, llat=0,minlat=0,avglat=0,maxlat=26) /10.128.0.8:53944[1](queued=0,recved=980297,sent=980306,sid=0x15d521a96d40005, lop=PING,est=1500321544896,to=40000,lcxid=0xce92a,lzxid=0x745,lresp=1502334176055, llat=0,minlat=0,avglat=0,maxlat=23) /10.128.0.8:54388[1](queued=0,recved=457110,sent=457110,sid=0x15d521a96d4000a, lop=PING,est=1500321673852,to=40000,lcxid=0x4dbe3,lzxid=0x745,lresp=1502334174245, llat=0,minlat=0,avglat=0,maxlat=22) /10.128.0.8:54622[1](queued=0,recved=972967,sent=972967,sid=0x15d521a96d4000b, lop=PING,est=1500321890175,to=40000,lcxid=0xccc9d,lzxid=0x745,lresp=1502334182417, llat=0,minlat=0,avglat=0,maxlat=88) /10.128.0.8:54192[1](queued=0,recved=150848,sent=150848,sid=0x15d521a96d40008, lop=PING,est=1500321591985,to=40000,lcxid=0x8,lzxid=0x745,lresp=1502334184475, llat=3,minlat=0,avglat=0,maxlat=19) /10.128.0.8:44564[1](queued=0,recved=267354,sent=267355,sid=0x15d521a96d4000d, lop=PING,est=1501606633426,to=40000,lcxid=0x356e2,lzxid=0x745,lresp=1502334182315, llat=0,minlat=0,avglat=0,maxlat=35) /10.128.0.8:53960[1](queued=0,recved=150848,sent=150848,sid=0x15d521a96d40006, lop=PING,est=1500321547138,to=40000,lcxid=0x5,lzxid=0x745,lresp=1502334177036, llat=1,minlat=0,avglat=0,maxlat=20)
如果最近 3 個健康狀態檢查指令中有顯示下列訊息:
$ echo stat | nc localhost 2181 This ZooKeeper instance is not currently serving requests
則代表特定的 ZooKeeper 節點並未處理要求。
-
- 請檢查特定節點的 ZooKeeper 記錄,並嘗試找出造成
ZooKeeper 應用程式。下列目錄提供 ZooKeeper 記錄:
$ cd /opt/apigee/var/log/apigee-zookeeper $ ls -l total 188 -rw-r--r--. 1 apigee apigee 2715 Jul 22 19:51 apigee-zookeeper.log -rw-r--r--. 1 apigee apigee 10434 Jul 17 19:51 config.log -rw-r--r--. 1 apigee apigee 169640 Aug 1 19:51 zookeeper.log
解析度
- 逐一重新啟動叢集中的所有其他 ZooKeeper 節點。
- 在每個節點上重新執行 ZooKeeper 健康狀態檢查指令,看看是否已達預期 輸出內容
與 Apigee 支援團隊聯絡,排解 或是重新啟動並無法解決問題。