2026년 1월 18일·AI / ML·

1장: AI 서비스 배포의 전체 그림과 핵심 과제

AI 모델을 프로덕션에 배포하기 위한 전체 파이프라인을 조망하고, 전통적 웹 서비스와 다른 AI 서비스만의 고유한 배포 과제를 분석합니다.

22분223자6개 섹션

mlops kubernetes infrastructure performance

AI 서비스 배포는 왜 특별한가

전통적인 웹 애플리케이션 배포와 AI 서비스 배포는 근본적으로 다른 도전 과제를 안고 있습니다. 일반적인 REST API 서버는 CPU와 메모리만으로 충분히 운영할 수 있으며, 수평 확장(Horizontal Scaling)이 비교적 단순합니다. 반면 LLM 기반 AI 서비스는 다음과 같은 고유한 특성을 가집니다.

첫째, 연산 자원의 규모가 다릅니다. 70억 파라미터 모델 하나를 로드하는 데만 약 14GB의 GPU 메모리가 필요합니다. 700억 파라미터 모델은 140GB 이상을 요구하며, 이는 단일 GPU로는 불가능한 규모입니다. 모델 로딩 자체가 수십 초에서 수 분이 걸리기 때문에 기존 애플리케이션처럼 빠른 시작과 종료가 어렵습니다.

둘째, 추론(Inference) 지연 시간의 특성이 다릅니다. 일반적인 API 호출이 수 밀리초 내에 응답하는 것과 달리, LLM 추론은 수백 밀리초에서 수십 초까지 걸릴 수 있습니다. 특히 긴 텍스트를 생성하는 경우 스트리밍 응답이 필수적이며, 이는 인프라 설계에 직접적인 영향을 미칩니다.

셋째, 비용 구조가 극적으로 다릅니다. NVIDIA A100 80GB GPU 한 대의 시간당 클라우드 비용은 약 3~5달러입니다. H100은 8~12달러까지 올라갑니다. GPU가 유휴 상태로 대기하고 있어도 비용은 동일하게 발생하므로, 자원 활용률(Utilization)이 비용을 좌우하는 핵심 요소가 됩니다.

text

전통적 웹 서비스:
  요청 --> CPU 처리 (ms 단위) --> 응답
  확장: 인스턴스 추가 (초 단위, 저비용)
 
AI 추론 서비스:
  요청 --> GPU 모델 로드 (분 단위) --> 추론 (초 단위) --> 스트리밍 응답
  확장: GPU 인스턴스 추가 (분 단위, 고비용)

AI 서비스 배포 파이프라인의 구성 요소

프로덕션 AI 서비스 배포 파이프라인은 크게 다섯 가지 계층으로 구성됩니다. 각 계층은 독립적이면서도 서로 밀접하게 연결되어 있으며, 전체 파이프라인의 안정성은 가장 약한 고리에 의해 결정됩니다.

모델 준비 계층

모델 준비 계층은 학습이 완료된 모델을 서빙에 적합한 형태로 변환하는 단계입니다. 원본 모델 가중치(Weights)를 다운로드하고, 필요에 따라 양자화(Quantization)를 적용하여 메모리 사용량과 추론 속도를 최적화합니다. GGUF, GPTQ, AWQ 등 다양한 양자화 포맷이 존재하며, 각각 정확도와 성능 간의 다른 균형점을 제공합니다.

이 단계에서는 모델 레지스트리(Model Registry)도 중요한 역할을 합니다. Hugging Face Hub, S3, GCS 등에 모델 아티팩트를 버전 관리하며, 배포 시 필요한 모델을 안정적으로 가져올 수 있어야 합니다.

서빙 계층은 모델을 메모리에 로드하고 추론 요청을 처리하는 핵심 엔진입니다. vLLM, Text Generation Inference(TGI), Triton Inference Server 등의 프레임워크가 이 역할을 담당합니다. 이들은 단순히 모델을 실행하는 것을 넘어, 연속 배칭(Continuous Batching), KV 캐시 관리, 텐서 병렬 처리(Tensor Parallelism) 등 고급 최적화 기법을 제공합니다.

text

서빙 프레임워크의 핵심 기능:
 
  [요청 큐]
      |
      v
  [스케줄러] --> 연속 배칭으로 다수 요청 동시 처리
      |
      v
  [추론 엔진] --> PagedAttention, FlashAttention 등 최적화
      |
      v
  [KV 캐시] --> 메모리 효율적 관리
      |
      v
  [스트리밍 응답] --> SSE/WebSocket으로 토큰 단위 전달

컨테이너화 계층

컨테이너화 계층은 서빙 엔진과 모델, 의존성을 하나의 재현 가능한 단위로 패키징합니다. Docker 이미지에 CUDA 드라이버, Python 런타임, 서빙 프레임워크, 모델 가중치를 포함하여 어떤 환경에서든 동일하게 실행될 수 있도록 합니다.

AI 서비스의 Docker 이미지는 일반적인 웹 애플리케이션 이미지와 크게 다릅니다. NVIDIA CUDA 베이스 이미지를 사용해야 하고, 모델 가중치의 크기 때문에 이미지 용량이 수 GB에서 수십 GB에 달할 수 있습니다. 이로 인해 멀티 스테이지 빌드(Multi-stage Build)와 모델 분리 전략이 필수적입니다.

오케스트레이션 계층

오케스트레이션 계층은 컨테이너화된 서비스를 클러스터 환경에서 배포, 확장, 관리하는 역할을 합니다. Kubernetes가 사실상의 표준이며, NVIDIA GPU Operator, Node Feature Discovery 등의 컴포넌트가 GPU 워크로드를 지원합니다.

이 계층에서는 다음과 같은 것들을 관리합니다.

GPU 노드 풀 구성과 스케줄링
수평 오토스케일링(HPA)과 커스텀 메트릭 기반 확장
롤링 업데이트와 무중단 배포
헬스 체크와 자동 복구
서비스 메시와 트래픽 라우팅

CI/CD 계층

CI/CD 계층은 모델 변경, 서빙 코드 변경, 인프라 변경을 자동으로 테스트하고 배포하는 파이프라인입니다. 전통적인 소프트웨어 CI/CD와 유사하지만, 모델 평가(Evaluation) 단계가 추가되고, 배포 대상이 GPU 인스턴스라는 점에서 차이가 있습니다.

GitHub Actions, GitLab CI, Argo Workflows 등을 사용하여 코드 변경부터 프로덕션 배포까지의 전 과정을 자동화할 수 있습니다.

배포 아키텍처 패턴

AI 서비스를 배포하는 방식은 서비스의 규모, 요구사항, 예산에 따라 달라집니다. 주요 아키텍처 패턴을 살펴보겠습니다.

단일 서버 배포

가장 단순한 형태로, 한 대의 GPU 서버에서 모델 서빙 프레임워크를 직접 실행하는 방식입니다. 프로토타입이나 소규모 내부 서비스에 적합합니다.

text

[클라이언트] --> [Nginx/Caddy] --> [vLLM 서버 (GPU)] --> [모델 파일]

장점은 구성이 단순하고 운영 오버헤드가 적다는 것입니다. 단점은 단일 장애점(SPOF, Single Point of Failure)이 존재하고, 확장이 불가능하며, GPU 활용률을 최적화하기 어렵다는 것입니다.

컨테이너 기반 배포

Docker Compose나 단일 노드 환경에서 컨테이너로 서비스를 운영하는 방식입니다. 서빙 엔진, 로드 밸런서, 모니터링을 각각의 컨테이너로 분리하여 관리합니다.

text

[클라이언트]
     |
     v
[로드 밸런서 컨테이너]
     |
     +---> [vLLM 컨테이너 1 (GPU 0)]
     +---> [vLLM 컨테이너 2 (GPU 1)]
     |
[모니터링 컨테이너 (Prometheus + Grafana)]

단일 서버 대비 격리성과 재현성이 향상되지만, 여전히 단일 노드 제약에 묶여 있습니다.

Kubernetes 기반 배포

프로덕션 환경의 표준 패턴입니다. 다수의 GPU 노드로 구성된 클러스터에서 자동 확장, 장애 복구, 무중단 배포를 구현합니다.

text

[인그레스 컨트롤러]
        |
        v
[서비스 (로드 밸런싱)]
        |
        +---> [Pod: vLLM + 모델 A] (GPU 노드 1)
        +---> [Pod: vLLM + 모델 A] (GPU 노드 2)
        +---> [Pod: vLLM + 모델 B] (GPU 노드 3)
        |
[HPA: 커스텀 메트릭 기반 오토스케일링]
[Prometheus + Grafana: 모니터링]
[Argo CD: GitOps 기반 배포]

이 패턴은 가장 유연하고 확장 가능하지만, 운영 복잡도가 높습니다. Kubernetes 자체에 대한 깊은 이해와 GPU 특화 설정에 대한 지식이 필요합니다.

서버리스 / 관리형 서비스

AWS SageMaker, Google Vertex AI, Azure ML 등의 관리형 서비스를 활용하거나, Modal, RunPod, Replicate 같은 서버리스 GPU 플랫폼을 사용하는 방식입니다. 인프라 관리 부담을 크게 줄일 수 있지만, 비용이 높고 커스터마이징에 제약이 있습니다.

Info

이 시리즈에서는 Kubernetes 기반 배포를 중심으로 다루되, 각 장에서 단일 서버나 관리형 서비스와의 비교도 함께 제공합니다. Kubernetes를 이해하면 다른 배포 방식도 자연스럽게 이해할 수 있기 때문입니다.

AI 서비스 배포의 핵심 과제

콜드 스타트 문제

GPU 인스턴스를 새로 시작하고, 모델을 메모리에 로드하는 데 걸리는 시간을 콜드 스타트(Cold Start)라고 합니다. 70억 파라미터 모델의 경우 약 30초~2분, 700억 파라미터 모델은 5~10분 이상 걸릴 수 있습니다.

이는 오토스케일링의 효과를 크게 제한합니다. 트래픽이 급증할 때 새 인스턴스를 추가하더라도, 해당 인스턴스가 실제로 요청을 처리할 수 있게 되기까지 상당한 시간이 소요되기 때문입니다.

콜드 스타트를 완화하는 전략으로는 다음과 같은 것들이 있습니다.

최소 레플리카(Minimum Replica) 유지: 항상 일정 수의 인스턴스를 가동
예측적 스케일링(Predictive Scaling): 트래픽 패턴을 분석하여 선제적으로 확장
모델 캐싱: 노드 로컬 스토리지나 공유 파일 시스템에 모델 사전 배치
양자화: 모델 크기를 줄여 로딩 시간 단축

GPU 메모리 관리

GPU 메모리(VRAM)는 가장 희소하고 비싼 자원입니다. 모델 가중치, KV 캐시, 활성화 텐서가 모두 GPU 메모리를 차지하며, 동시 요청 수가 증가할수록 KV 캐시가 빠르게 증가합니다.

메모리 부족(OOM, Out of Memory) 오류는 AI 서비스에서 가장 흔한 장애 원인 중 하나입니다. 이를 방지하기 위해 다음과 같은 전략을 사용합니다.

최대 동시 요청 수 제한
KV 캐시 메모리 비율 설정
PagedAttention으로 메모리 단편화 방지
양자화로 모델 메모리 사용량 감소
텐서 병렬 처리로 다수 GPU에 분산

처리량과 지연 시간의 균형

배칭(Batching)은 GPU 활용률을 높이고 처리량(Throughput)을 증가시키는 핵심 기법입니다. 그러나 배치 크기가 커질수록 개별 요청의 지연 시간(Latency)이 증가하는 트레이드오프가 존재합니다.

연속 배칭(Continuous Batching)은 이 문제를 크게 완화했습니다. 기존의 정적 배칭(Static Batching)과 달리, 생성이 완료된 요청을 즉시 배치에서 제거하고 새 요청을 투입할 수 있어 GPU 활용률과 응답 시간 모두를 개선합니다.

text

정적 배칭:
  [요청1: 토큰 50개] [요청2: 토큰 200개] [요청3: 토큰 100개]
  --> 가장 긴 요청(200개)이 끝날 때까지 모두 대기
  --> GPU 유휴 시간 발생
 
연속 배칭:
  [요청1: 완료] --> 즉시 새 요청4 투입
  [요청2: 진행중]
  [요청3: 완료] --> 즉시 새 요청5 투입
  --> GPU 항상 최대 활용

모델 업데이트와 무중단 배포

모델을 새 버전으로 교체할 때, 서비스 중단 없이 전환하는 것은 쉽지 않습니다. 모델 로딩에 시간이 오래 걸리기 때문에, 기존 서비스를 종료하고 새 서비스를 시작하는 방식으로는 수 분간의 다운타임이 발생합니다.

블루-그린 배포(Blue-Green Deployment)나 카나리 배포(Canary Deployment)를 통해 이 문제를 해결할 수 있으며, 이는 이 시리즈의 후반부에서 자세히 다루겠습니다.

이 시리즈에서 다루는 내용

이 시리즈는 총 10장으로 구성되어 있으며, AI 모델을 프로덕션 환경에 배포하기 위한 전체 파이프라인을 단계별로 구축합니다.

2장: 모델 서빙 프레임워크에서는 vLLM과 TGI를 심층 비교하고, 각각의 장단점과 적합한 사용 시나리오를 분석합니다.

3장: 모델 최적화에서는 양자화, 배칭, KV 캐시 전략 등 추론 성능을 최적화하는 기법을 다룹니다.

4장: 컨테이너화에서는 Docker를 사용하여 AI 서비스를 패키징하는 방법과 GPU 지원 컨테이너의 특수한 요구사항을 설명합니다.

5장: Kubernetes 기초에서는 AI 워크로드를 위한 Kubernetes 클러스터 설계의 핵심 개념을 다룹니다.

6장: Kubernetes 배포 실전에서는 GPU 노드 구성, 모델 서빙 파드 배포, 서비스 노출을 실습합니다.

7장: 오토스케일링에서는 트래픽과 GPU 메트릭 기반의 자동 확장 전략을 구현합니다.

8장: 비용 최적화에서는 스팟 인스턴스, 모델 공유, 리소스 관리를 통한 비용 절감 전략을 다룹니다.

9장: CI/CD 파이프라인에서는 GitHub Actions를 활용한 모델 배포 자동화를 구현합니다.

10장: 실전 프로젝트에서는 앞선 모든 내용을 종합하여 프로덕션 수준의 AI 서비스 파이프라인을 처음부터 끝까지 구축합니다.

Tip

이 시리즈를 따라가기 위해서는 Docker와 Linux 기본 명령어에 대한 기초 지식이 필요합니다. Kubernetes 경험이 없어도 5장에서 기초부터 설명하므로 충분히 따라갈 수 있습니다. GPU가 없는 로컬 환경에서도 대부분의 실습을 CPU 모드로 진행할 수 있도록 안내합니다.

정리

AI 서비스 배포는 전통적인 소프트웨어 배포와 근본적으로 다른 도전 과제를 안고 있습니다. GPU라는 희소하고 비싼 자원을 효율적으로 활용하면서, 안정적이고 확장 가능한 서비스를 운영하는 것이 핵심입니다.

다음 장에서는 AI 서비스의 핵심 엔진인 모델 서빙 프레임워크를 살펴봅니다. vLLM과 TGI를 심층 비교하며, 각각의 아키텍처와 성능 특성을 분석하겠습니다.

이 글이 도움이 되셨나요?

2장: 모델 서빙 프레임워크 - vLLM과 TGI 심층 비교

LLM 추론의 핵심 엔진인 vLLM과 Text Generation Inference를 아키텍처, 성능, 기능 측면에서 심층 비교하고 적합한 선택 기준을 제시합니다.

2026년 1월 20일·19분

AI / ML

3장: 모델 최적화 - 양자화, 배칭, KV 캐시 전략

LLM 추론 성능을 극대화하기 위한 양자화 기법, 배칭 전략, KV 캐시 튜닝 방법을 실전 예제와 함께 체계적으로 다룹니다.

2026년 1월 22일·22분

AI / ML

4장: 컨테이너화 - Docker로 AI 서비스 패키징

GPU 지원 Docker 컨테이너로 AI 서비스를 패키징하는 방법을 다루며, NVIDIA Container Toolkit 설정부터 멀티 스테이지 빌드까지 실전 기법을 소개합니다.

2026년 1월 24일·15분

2026년 1월 18일·AI / ML·

1장: AI 서비스 배포의 전체 그림과 핵심 과제

AI 모델을 프로덕션에 배포하기 위한 전체 파이프라인을 조망하고, 전통적 웹 서비스와 다른 AI 서비스만의 고유한 배포 과제를 분석합니다.

22분223자6개 섹션

mlops kubernetes infrastructure performance

ai-deployment1 / 10

1 2 3 4 5 6 7 8 9 10

다음2장: 모델 서빙 프레임워크 - vLLM과 TGI 심층 비교

AI 서비스 배포는 왜 특별한가

text

전통적 웹 서비스:
  요청 --> CPU 처리 (ms 단위) --> 응답
  확장: 인스턴스 추가 (초 단위, 저비용)
 
AI 추론 서비스:
  요청 --> GPU 모델 로드 (분 단위) --> 추론 (초 단위) --> 스트리밍 응답
  확장: GPU 인스턴스 추가 (분 단위, 고비용)

AI 서비스 배포 파이프라인의 구성 요소

모델 준비 계층

서빙 계층

text

서빙 프레임워크의 핵심 기능:
 
  [요청 큐]
      |
      v
  [스케줄러] --> 연속 배칭으로 다수 요청 동시 처리
      |
      v
  [추론 엔진] --> PagedAttention, FlashAttention 등 최적화
      |
      v
  [KV 캐시] --> 메모리 효율적 관리
      |
      v
  [스트리밍 응답] --> SSE/WebSocket으로 토큰 단위 전달

컨테이너화 계층

오케스트레이션 계층

이 계층에서는 다음과 같은 것들을 관리합니다.

GPU 노드 풀 구성과 스케줄링
수평 오토스케일링(HPA)과 커스텀 메트릭 기반 확장
롤링 업데이트와 무중단 배포
헬스 체크와 자동 복구
서비스 메시와 트래픽 라우팅

CI/CD 계층

GitHub Actions, GitLab CI, Argo Workflows 등을 사용하여 코드 변경부터 프로덕션 배포까지의 전 과정을 자동화할 수 있습니다.

배포 아키텍처 패턴

AI 서비스를 배포하는 방식은 서비스의 규모, 요구사항, 예산에 따라 달라집니다. 주요 아키텍처 패턴을 살펴보겠습니다.

단일 서버 배포

가장 단순한 형태로, 한 대의 GPU 서버에서 모델 서빙 프레임워크를 직접 실행하는 방식입니다. 프로토타입이나 소규모 내부 서비스에 적합합니다.

text

[클라이언트] --> [Nginx/Caddy] --> [vLLM 서버 (GPU)] --> [모델 파일]

컨테이너 기반 배포

text

[클라이언트]
     |
     v
[로드 밸런서 컨테이너]
     |
     +---> [vLLM 컨테이너 1 (GPU 0)]
     +---> [vLLM 컨테이너 2 (GPU 1)]
     |
[모니터링 컨테이너 (Prometheus + Grafana)]

단일 서버 대비 격리성과 재현성이 향상되지만, 여전히 단일 노드 제약에 묶여 있습니다.

Kubernetes 기반 배포

프로덕션 환경의 표준 패턴입니다. 다수의 GPU 노드로 구성된 클러스터에서 자동 확장, 장애 복구, 무중단 배포를 구현합니다.

text

[인그레스 컨트롤러]
        |
        v
[서비스 (로드 밸런싱)]
        |
        +---> [Pod: vLLM + 모델 A] (GPU 노드 1)
        +---> [Pod: vLLM + 모델 A] (GPU 노드 2)
        +---> [Pod: vLLM + 모델 B] (GPU 노드 3)
        |
[HPA: 커스텀 메트릭 기반 오토스케일링]
[Prometheus + Grafana: 모니터링]
[Argo CD: GitOps 기반 배포]

이 패턴은 가장 유연하고 확장 가능하지만, 운영 복잡도가 높습니다. Kubernetes 자체에 대한 깊은 이해와 GPU 특화 설정에 대한 지식이 필요합니다.

서버리스 / 관리형 서비스

Info

AI 서비스 배포의 핵심 과제

콜드 스타트 문제

콜드 스타트를 완화하는 전략으로는 다음과 같은 것들이 있습니다.

최소 레플리카(Minimum Replica) 유지: 항상 일정 수의 인스턴스를 가동
예측적 스케일링(Predictive Scaling): 트래픽 패턴을 분석하여 선제적으로 확장
모델 캐싱: 노드 로컬 스토리지나 공유 파일 시스템에 모델 사전 배치
양자화: 모델 크기를 줄여 로딩 시간 단축

GPU 메모리 관리

메모리 부족(OOM, Out of Memory) 오류는 AI 서비스에서 가장 흔한 장애 원인 중 하나입니다. 이를 방지하기 위해 다음과 같은 전략을 사용합니다.

최대 동시 요청 수 제한
KV 캐시 메모리 비율 설정
PagedAttention으로 메모리 단편화 방지
양자화로 모델 메모리 사용량 감소
텐서 병렬 처리로 다수 GPU에 분산

처리량과 지연 시간의 균형

text

정적 배칭:
  [요청1: 토큰 50개] [요청2: 토큰 200개] [요청3: 토큰 100개]
  --> 가장 긴 요청(200개)이 끝날 때까지 모두 대기
  --> GPU 유휴 시간 발생
 
연속 배칭:
  [요청1: 완료] --> 즉시 새 요청4 투입
  [요청2: 진행중]
  [요청3: 완료] --> 즉시 새 요청5 투입
  --> GPU 항상 최대 활용