✅ クラウド環境（コンテナ・Kubernetes）でのGCログ＆ヒープダンプ活用の実践

～Javaアプリをクラウドで止まらず、効率よく動かすためのメモリ観察術～

はじめに：なぜクラウド環境でのメモリ解析が特別か？
全体の流れ：クラウド環境での実践ステップ
ステップ①：JVM起動引数とコンテナのリソース設計
ステップ②：GCログの収集と監視
1. GCログを有効化する
2. ログの監視と異常検知
ステップ③：ポッドでヒープダンプ取得＆分析
ステップ④：設定・コード改善と再検証
1. 改善例
2. 再検証
ステップ⑤：運用定着とスケーラビリティ設計
初心者プログラマー向けポイント
まとめ

はじめに：なぜクラウド環境でのメモリ解析が特別か？

近年、多くのJavaアプリケーションはクラウド上、特にコンテナ環境やKubernetes上で動くことが増えています。
しかし、そのような環境では、「ヒープが突然増える」「ポッドが頻繁に再起動される」「メモリ制限に達してOOMKilledになる」 といった問題が起きやすくなります。

なぜなら、クラウド／Kubernetes環境では次のような特徴があるからです：

コンテナには「メモリリソース（requests／limits）」が設定されており、Javaが使えるヒープサイズや非ヒープ領域を過小見積もると、即座に限界に達してしまう。
Kubernetesのダッシュボードやモニタリングでは、JVMヒープ内の動きではなく「コンテナ全体のメモリ使用量」が表示されるため、ヒープ外メモリ（スタック・ネイティブ・メタスペース）も含まれる。
ポッドがスケールアウト／再起動する場面では、従来のオンプレ／単一サーバーと異なった運用の注意点が出てくる。

こうした環境で「GCログを取り」「ヒープダンプを取得して分析する」手法を使えるかどうかが、クラウド上で安定・効率よくJavaアプリを運用できるかどうかの分かれ目になります。

全体の流れ：クラウド環境での実践ステップ

クラウド環境でGCログ＋ヒープダンプを活かすには、以下のような流れがおすすめです：

JVM起動引数・コンテナリソースの設計
GCログの収集と監視→異常を検知
ポッドでヒープダンプの取得と分析
設定・コードを改善し、再度モニタリング＆ダンプ
運用定着：アラート設定・スケーリング設計

各ステップを順番に、クラウドならではのポイントを交えて解説します。

ステップ①：JVM起動引数とコンテナのリソース設計

コンテナのメモリ「requests／limits」を設定する

Kubernetesでは、ポッドのコンテナに対して以下を設定します：

resources:
  requests:
    memory: "512Mi"
  limits:
    memory: "1Gi"

resources:

requests:

memory: "512Mi"

limits:

memory: "1Gi"

このように設定することで、Kubernetesがスケジューリングしやすくなります。
しかし、Javaアプリの場合、ヒープサイズや非ヒープ領域（メタスペース、ネイティブバッファなど）を考慮して、-Xmx などを適切に設定する必要があります。

JVM引数をクラウド環境に合わせて調整

例えば、コンテナ上でJava 11以降を使うときには、環境変数で以下のように設定することが多いです：

JAVA_OPTS="-Xms256m -Xmx700m \
          -XX:+PrintGCDetails \
          -Xlog:gc*:file=/logs/gc.log:time,uptime,level,tags:filecount=5,filesize=10m"

JAVA_OPTS="-Xms256m -Xmx700m \

-XX:+PrintGCDetails \

-Xlog:gc*:file=/logs/gc.log:time,uptime,level,tags:filecount=5,filesize=10m"

ポイント：

-Xmx をコンテナの memory limits より小さめに設定して、ヒープ以外のメモリ領域が枯渇しないようにする
-XX:+PrintGCDetails や -Xlog:gc* でGCログを取得
ログローテーション（filecount・filesize）を設定して、ディスクを圧迫しないようにする

注意点：ヒープ外メモリの影響

Javaが使うメモリはヒープだけではありません。例えば、スタック領域やネイティブバッファ、メタスペースなども含まれます。
コンテナの limits をヒープだけで埋めてしまうと、ヒープ以外でMEMORY KILLされることがあります。

ステップ②：GCログの収集と監視

GCログを有効化する

コンテナ起動時に以下のように引数を追加しておきます（Java 11以降の例）：

-Xlog:gc*=info:file=/var/log/app/gc.log:time,uptime,level,tags:filecount=10,filesize=20m

1 2	-Xlog:gc*=info:file=/var/log/app/gc.log:time,uptime,level,tags:filecount=10,filesize=20m

こうすることで、GCがどの世代でいつ起きたか、どれだけヒープが空いたか、どれだけ停止（STW）したかが記録されます。

ログの監視と異常検知

クラウド環境では、ログを中央収集（例：ELK、Prometheus／Grafana＋Alertmanager）しておくのが有効です。
注目すべき兆候は：

若世代GCが非常に頻繁
フルGCやSTW時間が長い
コンテナ内メモリ使用量が limits に近づいている
メモリ使用量が増え続けている

こうした傾向は、次ステップのヒープダンプ取得に移る合図となります。

ステップ③：ポッドでヒープダンプ取得＆分析

クラウド／Kubernetes環境でヒープダンプを取得するための注意点と手順を紹介します。

ヒープダンプ取得の手順

対象ポッドを特定： kubectl get pods --namespace=myapp
ポッドに入る： kubectl exec -it myapp-pod-xxxx -- bash
プロセスIDを確認： jps -l
ダンプ生成： jcmd <pid> GC.heap_dump filename=/tmp/heap_dump.hprof
ダンプをコピー出力（Alternately マウントされたボリュームに出力する）： kubectl cp myapp-pod-xxxx:/tmp/heap_dump.hprof ./heap_dump.hprof

この記事で紹介している手順も、同様の環境で使われています。

注意点：コンテナ環境ならではの落とし穴

ダンプを出力すると、一時的にメモリ・ディスクI/Oに負荷がかかるため、実稼働時間帯には控えた方が安全。
永続ボリューム（PV）や共有ストレージへのマウントを用意しておくと、ダンプファイルの取得が容易。
ポッドがクラッシュループ中（Restarting）だと、ファイルが消える場合があるため、CI／SREと連携してタイミングを決定する。

ダンプ分析のポイント

クラス別インスタンス数・サイズを把握
参照チェーン（どこから参照されているか）を追う
保持サイズ（Retained Heap）が極端に大きなものを特定
ログで出ていた「フルGC頻発」「旧世代膨張」の原因となるオブジェクトを突き止める

ステップ④：設定・コード改善と再検証

ヒープダンプ／GCログ解析で原因が明らかになったら、次の改善を行います。

改善例

-Xmx／-Xms 比率の調整
GC方式の見直し（例：G1GC設定、あるいは低遅延GC採用）
コードで不要な参照を切る（キャッシュ、静的変数、リスナー）
ポッドの requests／limits を見直し、ヒープ＋非ヒープメモリの合計で検討

再検証

同じ条件でGCログを再取得・比較
再度ヒープダンプを取得し、「改善前に比べてインスタンス数・保持サイズが減ったか」確認
運用中、モニタリングツールでメモリ使用量が安定しているか観察

ステップ⑤：運用定着とスケーラビリティ設計

クラウド／Kubernetes環境ならではの運用設計も必要です。

アラート設定

GC停止時間が長い・メモリ使用率が高い・OOMKilledが発生したら即通知が出るようにする。
GCログのパターン異常も監視対象に。

スケーリングとメモリ設計の関係

KubernetesではHorizontal Pod Autoscaler（HPA）によるメモリスケーリングも可能ですが、JVMのヒープが減らない性質があるため、スケールダウンがうまく機能しないケースも報告されています。
そのため、JVM設定＋コンテナリソース設計＋ヒープ挙動の理解が不可欠です。

チームでの共有知識に

GCログ／ヒープダンプ取得手順をDocumentation化
チーム内で「このパターンが出たらヒープダンプを取得」というガイドラインを作成
ダンプ解析結果や改善内容を共有し、ナレッジを蓄積

初心者プログラマー向けポイント

クラウド環境でも「GCログを読む」「ヒープダンプを取る」という手法は変わりません。
ただし、コンテナ／Kubernetesでは「ヒープだけ確認すればいい」というわけではなく、コンテナ全体メモリ・ヒープ外領域・ポッドリソース設計を含めて考える必要があります。
最初は、小さなサービスでログ取得・ダンプ取得を試してみると理解が早まります。
そして、「理論を学ぶ」ためにまずは次の書籍を読んでみましょう。
→ 絶対にJavaプログラマーになりたい人へ。
次に、「実際の現場でのコードレビュー・運用知見を深めたい」という方には、
→ サイゼントアカデミー のカリキュラムもおすすめです。