Cassandra のトラブルシューティングガイド

このトピックでは、Cassandra データストアのトラブルシューティングと問題の修正の手順について説明します。Cassandra は、ハイブリッドランタイムアーキテクチャの cassandra コンポーネントで実行される永続データストアです。ランタイムサービス構成の概要もご覧ください。

Cassandra Pod が保留状態のままになる

症状

起動時の Cassandra Pod の状態が Pending のままです。

エラーメッセージ

kubectl を使用して Pod の状態を表示すると、1 つ以上の Cassandra Pod が Pending 状態で停止していることがわかります。Pending 状態は、Kubernetes がノード上の Pod をスケジュールできないことを示します。Pod を作成することはできません。例:

kubectl get pods -n namespace

NAME                                     READY   STATUS      RESTARTS   AGE
adah-resources-install-4762w             0/4     Completed   0          10m
apigee-cassandra-0                       0/1     Pending     0          10m
...

考えられる原因

Pod が保留状態のままになる原因は、いくつかあります。例:

原因	説明
リソースの不足	Pod を作成するのに十分な CPU またはメモリがありません。
ボリュームが作成されていない	Pod は、永続ボリュームの作成を待機しています。

診断

kubectl を使用して Pod を記述し、エラーの原因を特定します。例:

kubectl -n namespace describe pods pod_name

例:

kubectl -n apigee describe pods apigee-cassandra-0

出力に次のいずれかの問題が表示されることがあります。

リソースが不十分な場合は、CPU またはメモリが不足していることを示す警告メッセージが表示されます。
エラーメッセージに、Pod にバインドされていない即時 PersistentVolumeClaim（PVC）があることが示されている場合、その Pod は永続ボリュームを作成できません。

解決

リソースの不足

Cassandra ノードプールを変更して、十分な CPU とメモリリソースを確保します。詳細については、ノードプールのサイズを変更するをご覧ください。

永続ボリュームが作成されない

永続ボリュームの問題を特定する場合は、PersistentVolumeClaim（PVC）を記述し、作成されない理由を判断します。

クラスタ内の PVC を一覧表示します。

kubectl -n namespace get pvc

NAME                                STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS   AGE
cassandra-data-apigee-cassandra-0   Bound    pvc-b247faae-0a2b-11ea-867b-42010a80006e   10Gi       RWO            standard       15m
...

障害が発生した Pod の PVC を記述します。たとえば、次のコマンドは、Pod apigee-cassandra-0 にバインドされた PVC を記述します。
```
kubectl apigee describe pvc cassandra-data-apigee-cassandra-0

Events:
  Type     Reason              Age                From                         Message
  ----     ------              ----               ----                         -------
  Warning  ProvisioningFailed  3m (x143 over 5h)  persistentvolume-controller  storageclass.storage.k8s.io "apigee-sc" not found
```
この例では、apigee-sc という名前の StorageClass が存在しません。この問題を解決するには、デフォルトの StorageClass を変更するの説明に従って、欠落している StorageClass をクラスタ内に作成します。

Pod のデバッグもご覧ください。

Cassandra Pod が CrashLoopBackoff 状態から先に進まない

症状

起動時の Cassandra Pod の状態が CrashLoopBackoff のままです。

エラーメッセージ

kubectl を使用して Pod の状態を表示すると、1 つ以上の Cassandra Pod が CrashLoopBackoff 状態になっていることがわかります。この状態は、Kubernetes が Pod を作成できないことを示しています。例:

kubectl get pods -n namespace

NAME                                     READY   STATUS            RESTARTS   AGE
adah-resources-install-4762w             0/4     Completed         0          10m
apigee-cassandra-0                       0/1     CrashLoopBackoff           0          10m
...

考えられる原因

Pod が CrashLoopBackoff 状態から先に進まない原因はいくつかあります。例:

原因	説明
データセンターが以前のデータセンターと異なる	このエラーは、Cassandra Pod に以前のクラスタのデータが含まれた永続ボリュームがあり、新しい Pod が古いクラスタに参加できないことを示しています。これは通常、同じ Kubernetes ノードに以前の Cassandra クラスタからの古い永続ボリュームが残っている場合に発生します。この問題は、クラスタで Cassandra を削除して再作成した場合に発生することがあります。
トラストストアディレクトリが見つからない	このエラーは、Cassandra Pod が TLS 接続を作成できないことを示しています。これは通常、指定された鍵と証明書が無効である、存在しない、あるいはその他の問題がある場合に発生します。

原因

説明

データセンターが以前のデータセンターと異なる

このエラーは、Cassandra Pod に以前のクラスタのデータが含まれた永続ボリュームがあり、新しい Pod が古いクラスタに参加できないことを示しています。これは通常、同じ Kubernetes ノードに以前の Cassandra クラスタからの古い永続ボリュームが残っている場合に発生します。この問題は、クラスタで Cassandra を削除して再作成した場合に発生することがあります。

トラストストアディレクトリが見つからない

このエラーは、Cassandra Pod が TLS 接続を作成できないことを示しています。これは通常、指定された鍵と証明書が無効である、存在しない、あるいはその他の問題がある場合に発生します。

診断

Cassandra のエラーログを確認して、問題の原因を特定します。

Pod を一覧表示して、失敗した Cassandra Pod の ID を取得します。
```
kubectl get pods -n namespace
```
失敗した Pod のログを確認します。
```
kubectl logs pod_id -n namespace
```

解決

Pod のログで次の手がかりを探します。

データセンターが以前のデータセンターと異なる

このログメッセージが表示される場合:

Cannot start node if snitch's data center (us-east1) differs from previous data center

クラスタ内に最新ではない、つまり古い PVC があるかどうかを確認し、あれば削除します。
これが新規インストールの場合は、すべての PVC を削除して設定しなおします。例:
```
kubectl -n namespace get pvc
kubectl -n namespace delete pvc cassandra-data-apigee-cassandra-0
```

トラストストアディレクトリが見つからない

このログメッセージが表示される場合:

Caused by: java.io.FileNotFoundException: /apigee/cassandra/ssl/truststore.p12
(No such file or directory)

キーと証明書がオーバーライドファイルで提供されている場合は、それらが正しく、有効であることを確認します。例:

cassandra:
  sslRootCAPath: path_to_root_ca-file
  sslCertPath: path-to-tls-cert-file
  sslKeyPath: path-to-tls-key-file

ノード障害

症状

起動時の Cassandra Pod の状態が Pending のままです。このような問題は、基になるノードの障害を示している場合があります。

診断

実行されていない Cassandra Pod を特定します。

$ kubectl get pods -n your_namespace
    NAME          READY   STATUS    RESTARTS   AGE
    cassandra-0   0/1     Pending   0          13s
    cassandra-1   1/1     Running   0          8d
    cassandra-2   1/1     Running   0          8d

ワーカーノードを確認します。NotReady 状態のノードがあれば、それが障害ノードです。

kubectl get nodes -n your_namespace
NAME                          STATUS   ROLES    AGE   VERSION
ip-10-30-1-190.ec2.internal   Ready    <none>   8d    v1.13.2
ip-10-30-1-22.ec2.internal    Ready    master   8d    v1.13.2
ip-10-30-1-36.ec2.internal    NotReady <none>   8d    v1.13.2
ip-10-30-2-214.ec2.internal   Ready    <none>   8d    v1.13.2
ip-10-30-2-252.ec2.internal   Ready    <none>   8d    v1.13.2
ip-10-30-2-47.ec2.internal    Ready    <none>   8d    v1.13.2
ip-10-30-3-11.ec2.internal    Ready    <none>   8d    v1.13.2
ip-10-30-3-152.ec2.internal   Ready    <none>   8d    v1.13.2
ip-10-30-3-5.ec2.internal     Ready    <none>   8d    v1.13.2

解決

ダウンしている Cassandra Pod をクラスタから削除します。

$ kubectl exec -it apigee-cassandra-0 -- nodetool status
$ kubectl exec -it apigee-cassandra-0 -- nodetool removenode deadnode_hostID

アフィニティによって Cassandra Pod がデッドノードで起動しないようにするため、デッドノードから VolumeClaim を削除します。
```
kubectl get pvc -n your_namespace
kubectl delete pvc volumeClaim_name -n your_namespace
```

ボリュームテンプレートを更新し、新しく追加されたノードの PersistentVolume を作成します。ボリュームテンプレートの例を次に示します。

apiVersion: v1
kind: PersistentVolume
metadata:
  name: cassandra-data-3
spec:
  capacity:
    storage: 100Gi
  accessModes:
  - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  storageClassName: local-storage
  local:
    path: /apigee/data
  nodeAffinity:
    "required":
      "nodeSelectorTerms":
      - "matchExpressions":
        - "key": "kubernetes.io/hostname"
          "operator": "In"
          "values": ["ip-10-30-1-36.ec2.internal"]

値を新しいホスト名または IP に置き換え、テンプレートを適用します。
```
kubectl apply -f volume-template.yaml
```

Cassandra のトラブルシューティング ガイド

Cassandra Pod が保留状態のままになる

症状

エラー メッセージ

考えられる原因

診断

解決

リソースの不足

永続ボリュームが作成されない

Cassandra Pod が CrashLoopBackoff 状態から先に進まない

症状

エラー メッセージ

考えられる原因

診断

解決

データセンターが以前のデータセンターと異なる

トラストストア ディレクトリが見つからない

ノード障害

症状

診断

解決

Cassandra のトラブルシューティングガイド

エラーメッセージ

エラーメッセージ

トラストストアディレクトリが見つからない