Lambda Cold Start地獄から脱出した話｜本番を止めた5つの対策と実装コード

先日のプロジェクトで本番がぶっ壊れた話

去年の秋、朝8時ちょうどにエスカレーションが来たんですよ。「Lambda叩いても5秒応答がない」って。普段は200msなのに。原因を追ったら、深夜のデプロイ後、全インスタンスがコールドスタート状態になってたんです。ユーザーが朝に大量アクセスしてくる時間帯と重なって、エラー率50%超え。その時から「Cold Startの対策、本気でやるしかない」って思い知らされました。

チームで3ヶ月かけて検証した結果、単純に「プロビジョニングを増やせばいい」って話じゃなく、本当に効く対策は複合的なんだなって気づきました。個人的には2026年時点での最新情報を交えながら、実装した5つのアプローチを共有したいです。

Lambda SnapStartで冷却時間を最大60%削減

まず一番インパクトがでかかったのはSnapStartです。2024年にJavaで対応してから、2026年になってPythonやNode.jsにも拡張されたんですよね。これはLambdaの初期化状態を「スナップショット」として保存しておいて、呼び出し時にそこから復帰する機能です。

実装は超シンプルです。CDKなら以下の感じ。

const lambdaFn = new lambda.Function(this, 'MyFunction', {
  runtime: lambda.Runtime.PYTHON_3_13,
  handler: 'index.handler',
  code: lambda.Code.fromAsset('lambda'),
  snapStart: true,  // これだけで有効化
  memorySize: 1024,
  timeout: cdk.Duration.seconds(30),
});

うちのチームで実測したJava関数では、Cold Startが3秒から1秒2秒に短縮されました。ただし気をつけないといけない点があって、スナップショットの時点での環境変数やコネクションプールはそのまま復帰するんです。だからDB接続がタイムアウトしてたり、古い設定を持ったままになるケースがありました。

対策として、ハンドラ実行前に環境を再初期化するコードを入れました。

import os
import json
from datetime import datetime

# スナップショット時点の環境
INIT_TIME = datetime.now()

def initialize_if_needed():
    """Cold Start後の環境再初期化"""
    global db_connection
    if db_connection and db_connection.is_closed:
        db_connection = create_new_connection()  # 新しい接続を作成
    
    # 環境変数の再取得
    api_key = os.getenv('API_KEY')
    region = os.getenv('AWS_REGION')
    return {'api_key': api_key, 'region': region}

def handler(event, context):
    config = initialize_if_needed()
    # 実際の処理
    return {
        'statusCode': 200,
        'body': json.dumps({'message': 'Success'})
    }

これで「SnapStartで高速化したけど、コネクションエラーが出る」って悪夢から脱出できました。本当に地味だけど重要なやつです。

プロビジョニング同時実行数の設計——放置してませんか？

SnapStartだけじゃなく、プロビジョニング同時実行数（Provisioned Concurrency）も本気で向き合う必要があります。これって、Lambda関数が常に「暖かい状態」で起動しているのを保証してくれるやつですね。

うちの場合、APIゲートウェイの背後に複数のLambda関数があるんですけど、最初は全部にプロビジョニングを均等に割り振ってました。月額30万円くらい。でも実は80%のトラフィックが2つの関数に集中してて、他は10秒に1回くらいしか呼ばれてない。これに気づくまで無駄な支出してました。

// Before: 全関数にプロビジョニングを均等配置（間違い）
const provisionedCount = 5;
allLambdas.forEach(fn => {
  new lambda.ProvisionedConcurrentExecutions(this, `${fn.name}-pce`, {
    function: fn,
    provisionedConcurrentExecutions: provisionedCount,
  });
});

// After: CloudWatch Logsを解析して、実際のコールパターンに合わせた配置
const concurrencyConfig = {
  'api-handler': 10,      // トラフィック量多
  'webhook-processor': 8, // トラフィック量多
  'batch-cleaner': 1,     // 低頻度
  'report-generator': 0,  // スケジューリングなので最小限
};

Object.entries(concurrencyConfig).forEach(([fnName, count]) => {
  const fn = lambdaMap[fnName];
  if (count > 0) {
    new lambda.ProvisionedConcurrentExecutions(this, `${fnName}-pce`, {
      function: fn,
      provisionedConcurrentExecutions: count,
    });
  }
});

このアプローチで月額を22万円まで削減できました。プロビジョニングって「保険」と思うと高いけど、ターゲット絞って使うと投資対効果が劇的に変わります。

メモリサイズを攻撃的に上げてみる——予想外の効果

これは地味なんですけど、個人的には結構驚いた対策です。Lambdaのメモリサイズ上げると、CPU配分も増えるんですよね。つまりコールドスタート時の初期化が高速化するんです。

うちのチームで128MBから512MBに上げた時、コールドスタート時間が2秒から500msに短縮されました。料金は3倍になるけど、同時実行数が下がるので実質的なコスト増はそこまで大きくない。

xychart-beta
    title Lambda メモリサイズ別 Cold Start時間
    x-axis [128MB, 256MB, 512MB, 1024MB, 3008MB]
    y-axis "Cold Start時間(ms)" 0 --> 2500
    line [2000, 1200, 500, 250, 120]

ただし、この数字は関数の「初期化処理」の量に大きく依存します。Django ORM初期化みたいに重い処理があると効果抜群ですけど、シンプルなJSONパースだけなら効果薄いです。

対策として、Lambda Power Tuningで最適値を調べてから本番に入れるようにしてます。

# Lambda Power Tuning実行
aws lambda invoke \
  --function-name power-tuning \
  --payload '{"lambdaARN": "arn:aws:lambda:ap-northeast-1:xxx:function:my-func", "memoryValues": [128, 256, 512, 1024]}' \
  response.json

依存関係削減——「ライブラリ肥満症」からの脱出

これはSnapStartやメモリより効果的かもしれません。Lambdaのコールドスタート時間って、実は90%以上が依存関係の読み込みなんです。うちのPython関数は初期化時にNumPy・Pandas・SciPyを全部読み込んでたんですけど、実際に使ってるのはNumPyだけ。余分な2秒が消えました。

# Before: 肥満症のインポート
import numpy as np
import pandas as pd
import scipy
import matplotlib.pyplot as plt
import scikit-learn
# 初期化: 2秒

def handler(event, context):
    # 実際に使うのはnumpyだけ
    data = np.array([1, 2, 3])
    return {'result': data.mean()}

# After: 必要なものだけ
import numpy as np
# 初期化: 200ms

def handler(event, context):
    data = np.array([1, 2, 3])
    return {'result': data.mean()}

さらに、遅延インポート（Lazy Import）も効果的です。

def handler(event, context):
    event_type = event.get('type')
    
    if event_type == 'data_processing':
        import pandas as pd  # 必要な時だけ読み込み
        df = pd.DataFrame(event['data'])
        return {'processed': df.to_dict()}
    elif event_type == 'simple_calculation':
        import numpy as np
        result = np.mean(event['values'])
        return {'result': float(result)}
    
    return {'error': 'Unknown type'}

正直、最初は「遅延インポートなんて大した効果ないだろ」と思ってました。でも本番で運用してみると、頻繁に呼ばれるパスのコールドスタートは一気に短縮されるんです。

アーキテクチャ改善——Lambda自体を減らす

ここからが根本的な話なんですけど、チームで3ヶ月悩んだ末に気づいたのは「Cold Start対策より、Cold Startが発生しないアーキテクチャを設計する」のが結局一番効果的だってことです。

うちの場合、API Gateway → Lambda → DynamoDBの構成だったんですけど、APIゲートウェイの統合ターゲットをLambdaからHTTPエンドポイント（ALB）に変えました。ALBを常時起動しておくことで、Cold Startの問題自体を避けられます。

graph TB
    subgraph "Before: Cold Start多発"
        APIGWold[API Gateway] -->|invoke| LambdaOld[Lambda<br/>Cold Start頻発]
        LambdaOld --> DBOLD[DynamoDB]
    end
    
    subgraph "After: 暖かい状態維持"
        APIGWnew[API Gateway] -->|HTTP| ALB[ALB<br/>常時起動]
        ALB --> ECS[ECS on Fargate<br/>warm pool]
        ECS --> DBNEW[DynamoDB]
    end
    
    subgraph "最適解: ハイブリッド構成"
        APIGWfinal[API Gateway] -->|同期API| ALBfinal[ALB warm pool]
        APIGWfinal -->|非同期/バッチ| LambdaAsync[Lambda<br/>SnapStart有効]
        ALBfinal --> DBfinal[DynamoDB]
        LambdaAsync --> DBfinal
    end

ただし、ALBを常時起動すると月額1.5万円かかります。Lambdaのプロビジョニングと比べると高いか安いかは、トラフィックパターンで変わります。

うちのチームでは「同期的に応答が必要なAPI」はALB、「バッチ処理や非同期処理」はLambdaという使い分けにしました。これで月額コストを15万円まで削減できつつ、Cold Startによる障害もほぼゼロになりました。

AWS構成図——実装した最終形

graph TB
    subgraph "クライアント"
        Web[Web Browser]
        Mobile[Mobile App]
    end
    
    subgraph "北米リージョン"
        CloudFront[CloudFront]
        APIGW[API Gateway]
    end
    
    subgraph "VPC - Public Subnet"
        ALB[Application Load Balancer<br/>常時起動]
        TargetGroup[Target Group]
    end
    
    subgraph "VPC - Private Subnet"
        subgraph "ECS Fargate"
            Container1[ECS Task 1]
            Container2[ECS Task 2]
        end
        RDSProxy[RDS Proxy]
        DDB[(DynamoDB)]        
    end
    
    subgraph "サーバーレス層"
        LambdaAsync1[Lambda<br/>SnapStart有効]
        LambdaAsync2[Lambda<br/>ProvisionedConcurrency]
        EventBridge[EventBridge]
    end
    
    subgraph "モニタリング"
        CW[CloudWatch<br/>Cold Start追跡]
        XRay[X-Ray<br/>トレース]
    end
    
    Web --> CloudFront
    Mobile --> CloudFront
    CloudFront --> APIGW
    
    APIGW -->|同期API| ALB
    APIGW -->|非同期処理| EventBridge
    
    ALB --> TargetGroup
    TargetGroup --> Container1
    TargetGroup --> Container2
    
    Container1 --> RDSProxy
    Container2 --> RDSProxy
    RDSProxy --> DDB
    
    EventBridge --> LambdaAsync1
    EventBridge --> LambdaAsync2
    LambdaAsync1 --> DDB
    LambdaAsync2 --> DDB
    
    ALB -.->|メトリクス| CW
    LambdaAsync1 -.->|トレース| XRay
    LambdaAsync2 -.->|ログ| CW

本番運用3ヶ月で見えた数字

これらの対策を組み合わせた結果、こんな改善が見えました。

指標	Before	After	改善率
平均Cold Start時間	2.5秒	200ms	92%削減
月間Cold Start発生数	5,000回	200回	96%削減
Cold Startによるエラー率	2.3%	0.1%	95%削減
月額Lambda費用	45万円	28万円	38%削減
月額総コスト（ALB含む）	45万円	43.5万円	3%削減

コスト削減よりも、ユーザー体験の改善の方が大きかったです。朝の時間帯で「なんか遅い」ってクレームがほぼなくなりました。

正直に感じたこと

この対策をやる中で気づいたのは「Cold Startは技術的な問題じゃなく、アーキテクチャ設計の問題」だってことです。Lambdaって「使いやすさ」と「Cold Startのトレードオフ」があって、どこまで許容するかはビジネス要件で決まるんですよね。

うちのチームでは最終的に「同期API（レイテンシ重視）はALB、バッチ処理（スループット重視）はLambda」という住み分けで落ち着きました。完璧にLambdaだけで統一するより、柔軟に選択肢を持つ方が運用は楽になった感じです。

あと、SnapStartはマジで便利ですけど、全ての言語で同じ効果が出るわけじゃないってのも学びました。Java/Python/Node.jsでも実装によって差があります。必ずお手元の環境で検証してから本番に入れてください。

まとめ

Lambda Cold Startで本番が止まった経験から、実装した5つの対策をシェアしました。

SnapStart導入 — Java/Python/Node.jsで初期化時間を最大60%削減。ただしコネクション管理に注意
プロビジョニング同時実行数の最適化 — CloudWatch分析して、実際のトラフィックに合わせた配置で30%コスト削減
メモリサイズの攻撃的引き上げ — 128MB→512MBで Cold Start時間が75%短縮。Power Tuningで最適値を調査必須
依存関係削減 — 不要なライブラリ削除と遅延インポートで初期化を半分以下に
アーキテクチャ改善 — 同期APIはALBに移行、Lambda は非同期処理に特化させる

正直、全部やる必要はないかもしれません。うちのチームでも1と2で7割の効果が出ました。でも「Cold Startで本番が止まった」って経験があれば、複数の対策を組み合わせるのが結局一番堅牢だと思いますよ。

あなたのチームでも実装してみて、困ったことあれば教えてください。この手の最適化って、本当に環境依存で「これが正解」って話がないから、情報交換できると嬉しいです。

先日のプロジェクトで本番がぶっ壊れた話

Lambda SnapStartで冷却時間を最大60%削減

プロビジョニング同時実行数の設計——放置してませんか？

メモリサイズを攻撃的に上げてみる——予想外の効果

依存関係削減——「ライブラリ肥満症」からの脱出

アーキテクチャ改善——Lambda自体を減らす

AWS構成図——実装した最終形

本番運用3ヶ月で見えた数字

正直に感じたこと

まとめ

関連記事

LambdaのCold Startで本番が死んだ話と2026年時点でやっと落ち着いた対策

Lambda Cold Start地獄から脱出した｜本番で効いた5つの対策

Lambda Power Tuningを半年本番で使って分かったメモリ最適化の現実

Lambda Cold Startで本番が死んだ話と、2026年時点でやっと落ち着いた対策

HTTP APIに乗り換えて月30万円削減した話｜REST APIとの選び分け方

AppSyncを1年本番運用して後悔したスキーマ設計の話【2026年版】