關於異常偵測

您正在查看 Apigee Edge 說明文件。
查看 Apigee X 說明文件
資訊

API Monitoring 可讓您建立以模式為基礎的規則,根據一組預先定義的條件觸發快訊。這類快訊稱為「已修正」快訊,是 API Monitoring 初始版本唯一支援的快訊類型。

舉例來說,您可以在以下情況觸發固定快訊:

  • [target mytarget1] [5xx 錯誤率] [大於] [10%] [10 分鐘] (從 [target mytarget1])
  • [region us-east-1] 的 [2xx 錯誤計數] [小於] [50],時間為 [5 分鐘]
  • [p90 延遲時間] 於 [proxy myproxy1] 上 [超過] [750 毫秒] [10 分鐘]

符合固定快訊的條件時,API Monitoring 就會傳送快訊,通知您問題。不過,您必須定義特定快訊條件,API Monitoring 才能傳送快訊。

雖然固定快訊具有價值,但由於流量模式會隨時間變化,因此很難判斷特定條件的正確門檻。舉例來說,如果您設定的門檻太低,就會收到快訊。如果您設定的門檻過高,可能會錯過某些重大問題或服務中斷。

異常偵測

異常偵測作業可讓 Edge 偵測流量和效能問題,而不需自行找出這些問題。Edge 會自動尋找機構、環境和區域層級的異常狀況。偵測到異常狀況時,系統會記錄在 Edge UI 的事件資訊主頁上顯示的異常狀況。

異常偵測的運作原理是將人工智慧 (AI) 和機器學習 (ML) 模型套用至過去的 API 資料。 然後,異常偵測可以針對您還沒想好提升工作效率的情境即時發出快訊,並減少 API 問題造成的平均值傳播 (MTTR) 情況。

舉例來說,系統偵測到異常狀況時,可能是因為新的 API 版本導致流量突然激增,而 API 的延遲時間也相應增加的情況。或者,後端設定錯誤會導致 API 回報的後端錯誤增加。

我們偵測到的異常狀況包含下列資訊:

  • 導致異常狀況的指標,例如 Proxy 延遲時間或 HTTP 錯誤代碼。
  • 異常狀況門檻。門檻可以是「輕微」、「中等」或「重大」

舉例來說,Edge 可自動偵測異常狀況,例如:

  • [environment prod, region1] 值 [slight in 503 error]
  • [environment prod, region2] 值 [moderate] [4xx 錯誤]
  • [environment prod, region local3] 中的 [嚴重] [延遲增加]

然後,您可以在「事件」資訊主頁顯示的異常資訊中,建立稱為「異常」快訊的新型快訊,通知發生這些情況。

異常狀況類型

Edge 會自動偵測以下類型的異常狀況:

  • 在機構、環境和區域層級的 HTTP 503 錯誤增加
  • 在機構、環境和區域層級的 HTTP 504 錯誤增加
  • 在機構、環境和區域層級的所有 HTTP 4xx 或 5xx 錯誤數量增加幅度
  • 在機構、環境和區域層級的第 90 個百分位數 (p90) 回應總延遲時間增加

啟用異常偵測

根據預設,Edge 機構和環境會停用異常偵測功能。如要啟用異常偵測,請向 Apigee Edge 支援要求,在特定機構和環境中啟用該功能。Apigee 會評估您的環境,並通知您能否啟用異常偵測功能。

基於效能考量,請勿在所有機構和環境中啟用異常狀況偵測功能。 Apigee 建議只對每秒平均流量負載至少 10 次 (tps) 的機構和環境啟用異常偵測作業。

檢查是否已啟用異常偵測

如何檢查是否已啟用異常偵測:

  1. 在 Edge UI 中依序選取「Analyze」>「Alert Rules」
  2. 選取「+ 快訊」按鈕。建立快訊面板隨即會開啟:

    設定異常快訊
  3. 在「Environment」中選取所需的「Environment」

    如果「快訊類型」的「Anomaly」選項顯示為灰色,表示異常偵測已停用。