UDCA の指標を表示する

Prometheus サービスは、他のハイブリッド サービスと同様に、UDCA サービスの指標を収集して処理します(指標の収集を参照)。

次の表に、Prometheus で使用される UDCA の指標データのラベルを示します。これらのラベルは指標のログエントリで使用されます。

ラベル 説明
organization UDCA サービスが実行されている組織の名前。
environment UDCA サービスが実行されている環境の名前。
dataset データの型。有効な値は次のとおりです。
  • api: 分析データ
  • event: デプロイのステータス データ
  • trace: トレースデータ
service

アップストリーム サービスの名前。UDCA は、ファイルのアップロードや認証などの操作を実行する際にこれらのサービスを使用します。有効な値は次のとおりです。

  • DATALOCATION: UDCA のデータのアップロード先となる場所を指定するエンドポイント。
  • CLOUD_STORAGE: UDCA によってアップロードされるデータの実際の保存場所。
  • TOKEN_GENERATOR: UDCA が JWT のアクセス トークンとリフレッシュ トークンを取得するエンドポイント。
state データファイルの状態。有効な値は次のとおりです。
  • FAILED: UDCA はファイルのアップロードを試みましたが、エラーが発生しました。
  • READY_TO_UPLOAD: ファイルはディスク上にあり、アップロードの準備ができています。現在アップロード中のファイルは含まれません。
  • UPLOADED: UDCA がこのファイルを正常にアップロードしました。
status_code UDCA が使用するアップストリーム サービスによって返される HTTP ステータス コード。

UDCA の一般的な指標ログエントリを次の表に示します。

指標 説明
uploaded_file_count{dataset=, organization=, environment=} count

UDCA が Apigee サービスにアップロードしたファイルの数。

次のことに注意してください。

  • event データセットの値は増え続けます。
  • api org/env に一定のトラフィックがある場合、データセット値は増え続けます。
  • Apigee トレースツールを使用してリクエストをデバッグまたは検査すると、trace データセットの値は増えます。
upstream_http_error_count{dataset=, organization=, environment=, service=, status_code=} count

UDCA が検出するアップストリームの HTTP エラー数のカウント。

4xx と 5xx の値は 0 に近く、時間が経過しても増加しません。5xx や 429 のようないくつかのエラーは時間経過とともに発生する可能性はありますが、常に発生するわけではありません。

local_file_count{dataset=,state=} value

データ収集ポッドのディスクにあるファイル数のカウント。

この値が 0 に近づくのが理想的です。値が一貫して高い場合は、ファイルがアップロードされていないか、UDCA が高速でアップロードできていません。

この値は 60 秒ごとに計算されるもので、UDCA の状態をリアルタイムで反映していません。

local_file_latest_ts{dataset=,state=} value

状態別のディスクにある最新のファイルの、Unix エポック開始からの経過時間を示すタイムスタンプ(ミリ秒単位)。

これは 60 秒ごとに計算されるもので、リアルタイムの状態を反映しません。UDCA が最新で、この指標の計算時にアップロード待ちのファイルがない場合、この値は 0 になります。

local_file_oldest_ts{dataset=,state=} value

データセットにある最も古いファイルの、Unix エポック開始からの経過時間を示すタイムスタンプ(ミリ秒単位)。

これは 60 秒ごとに計算されるもので、リアルタイムの状態を反映しません。UDCA が最新で、この指標の計算時にアップロード待ちのファイルがない場合、この値は 0 になります。

この値が増え続けると、古いファイルがディスクに残ったままになります。

disk_usage_bytes{dataset=,state=} value

データ収集ポッドのディスク上でデータファイルが占めるスペース(バイト単位)。

時間経過に伴うこの値の増加:

  • ready_to_upload はエージェントが遅れていることを意味します。
  • failed はファイルがディスク上に蓄積されていて、アップロードされていないことを示します。

    この値は 60 秒ごとに計算されます。

retry_cache_size{dataset=} value

UDCA がアップロードを再試行しているファイル数のカウント(データセットごと)。

各ファイルを 3 回再試行すると、UDCA はファイルを /failed サブディレクトリに移動し、このキャッシュから削除します。

時間の経過に伴ってこの値が増大する場合は、キャッシュがクリアされていません。これは、3 回の再試行後にファイルが /failed サブディレクトリに移動されたときに発生します。

upstream_http_latency_seconds_bucket{service=, dataset=, organization=, environment= le=value_in_seconds} count

サービスのアップストリーム レイテンシ(秒単位)。

バケットは 100 ミリ秒、250 ミリ秒、500 ミリ秒、1 秒、2 秒、4 秒、8 秒、16 秒、32 秒、64 秒のいずれかになります。

アップストリーム サービスからのレイテンシのヒストグラム。

upload_latency_seconds_bucket{dataset=, organization=, environment=, le=value_in_seconds} count UDCA がデータファイルのアップロードに費やした合計時間(秒単位)。

バケットは 100 ミリ秒、250 ミリ秒、500 ミリ秒、1 秒、2 秒、4 秒、8 秒、16 秒、32 秒、64 秒のいずれかになります。

指標には、すべてのアップストリーム コールを含む、合計アップロード レイテンシのヒストグラムが表示されます。

total_latency_seconds_bucket{dataset=, organization=, environment=, le=value_in_seconds} count

データファイルの作成とデータファイルの正常なアップロードとの時間間隔(秒単位)。

バケットは 100 ミリ秒、250 ミリ秒、500 ミリ秒、1 秒、2 秒、4 秒、8 秒、16 秒、32 秒、64 秒のいずれかになります。

ファイルの作成時間から正常なアップロード時間までの合計レイテンシのヒストグラム。

uploaded_file_size_bucket{dataset=, organization=, environment=, le=value_in_seconds} count

Apigee サービスにアップロードされるファイルのサイズ(バイト単位)。

バケットは 1 KB、10 KB、100 KB、1 MB、10 MB、100 MB、1 GB のいずれかになります。

データセット、組織、環境ごとのファイルサイズのヒストグラム。