추론 최적화는 모델을 더 빠르고 저렴하게 만드는 방법에 집중하는 장이다. 모델, 하드웨어, 서비스 수준에서 접근 가능하며, 모델 연구자부터 데이터 센터 운영자까지 함께 작업하는 융합 분야다.

추론 최적화 이해하기

연산 병목

주요 연산 병목에는 두 가지가 있다.

연산 제약(Compute-bound) — 작업을 끝내는 데 걸리는 연산 시간이 병목. 계산할 양이 너무 많다.
메모리 대역폭 제약(Memory-bandwidth-bound) — 데이터 전송 속도가 병목. 계산은 빠르지만 데이터를 가져오는 게 느리다.

산술 강도(Arithmetic Intensity)로 어느 쪽 제약을 받는지 구분 가능하다. 이는 메모리 1바이트에 접근할 때 수행하는 산술 연산 수를 뜻한다.

산술 강도 = FLOP / 메모리 접근 바이트 수

산술 강도 높음 → 연산 제약 (배치 행렬 곱셈 등)
산술 강도 낮음 → 메모리 대역폭 제약 (단일 토큰 생성 등)

엔비디아 엔사이트 같은 프로파일링 도구로 루프라인 차트(Roofline Chart)를 확인할 수 있다. 루프라인 차트에서 X축은 산술 강도, Y축은 실제 성능(FLOP/s)이며, 꺾이는 지점이 연산 제약과 대역폭 제약의 경계다.

트랜스포머 기반 언어 모델의 추론은 두 단계로 나뉜다.

단계	제약 유형	이유
프리필	연산 제약	입력 토큰을 병렬 처리하므로 계산량이 많다
디코딩	대역폭 제약	토큰을 하나씩 생성하므로 계산보다 가중치를 읽는 게 병목

온라인과 배치 추론 API

온라인 API — 지연 시간 최적화. 요청이 들어오면 바로 처리
배치 API — 요청을 모아서 한번에 처리. 가격이 저렴하지만 오래 걸림

배치 API가 적합한 경우는 다음과 같다.

합성 데이터 생성
정기 보고서 작성
신규 고객 온보딩 시 문서 일괄 처리
새 모델로 마이그레이션 시 데이터 재처리
대규모 개인화 추천이나 뉴스레터 생성
지식 베이스 업데이트

추론 성능 지표

지표	설명
TTFT (Time to First Token)	첫 토큰까지 걸리는 시간
TPOT (Time Per Output Token)	출력 토큰당 시간
TBT / ITL	토큰 간 시간 / 토큰 간 지연 시간

전체 지연 시간 = TTFT + TPOT x (출력 토큰 수)

처리량과 굿풋

처리량(Throughput) — 초당 생성할 수 있는 출력 토큰 수. TPS(tokens/s), RPS(초당 요청 수), RPM(분당 완료 요청 수) 등으로 측정
굿풋(Goodput) — SLO(서비스 수준 목표)를 만족하는 초당 요청 수. 예를 들어 TTFT 최대 200ms, TPOT 최대 100ms 조건에서 분당 100개 요청 중 30개만 SLO를 만족하면 굿풋은 30 RPM

TTFT, TPOT를 희생하면 처리량을 2~3배 올릴 수 있지만 사용자 경험이 나빠지므로, 굿풋에 집중해야 한다.

MFU와 MBU

MFU (Model FLOP/s Utilization) — 이론상 최대 처리량 대비 실제 처리량 비율. 연산 제약과 관련
MBU (Model Bandwidth Utilization) — 사용 가능한 메모리 대역폭 중 실제 사용 비율. 대역폭 제약과 관련

AI 가속기

알렉스넷(2012)이 신경망 학습에 GPU를 성공적으로 사용한 첫 번째 논문으로 주목받았다. 가속기는 특정 종류의 연산 작업을 빠르게 처리하도록 만들어진 칩이다.

CPU vs GPU

CPU — 범용 작업용, 강력한 코어 몇 개 (최대 64개). 단일 스레드 성능이 뛰어남
GPU — 병렬 처리용, 수천 개의 약한 코어. 행렬 곱셈 같은 병렬화 가능한 작업에 최적화

기타 AI 가속기

AMD GPU, 구글 TPU, 인텔 하바나 가우디, 그로크 LPU, 세레브라스 웨이퍼 스케일 칩 등

엣지 컴퓨팅용 칩도 있다. 애플 Neural Engine, AWS Inferentia, 메타 MTIA, 구글 엣지 TPU, 엔비디아 Jetson Xavier 등이다.

핵심 특성

특성	설명
연산 성능	FLOP/s로 측정
메모리 크기와 대역폭	CPU DRAM (25~50GB/s), GPU HBM (256GB/s~1.5TB/s), 온칩 SRAM (10TB/s 이상)
전력 소모	TDP로 표시. A100은 540억 개, H100은 800억 개의 트랜지스터

GPU 프로그래밍 언어로는 CUDA, OpenAI Triton, ROCm 등이 있다.

추론 최적화 기법

모델 최적화

모델 압축

양자화 — 정밀도를 낮춤 (7장에서 상세히 다룸)
증류 — 큰 모델의 지식을 작은 모델로 전이
프루닝 — 예측에 기여도가 낮은 파라미터를 제거. 원본 아키텍처 이해가 필요하고 성능 향상이 상대적으로 적어 잘 쓰이지 않음

자기회귀 디코딩 병목 극복

자기회귀 모델의 근본적인 한계는 토큰을 한 번에 하나씩 생성한다는 점이다. 이를 극복하기 위한 세 가지 접근법이 있다.

추측 디코딩(Speculative Decoding) — 작고 빠른 초안 모델이 여러 토큰을 미리 생성하고, 큰 목표 모델이 한 번에 검증한다. 검증은 병렬로 이루어지므로 속도가 향상된다. 수학적으로 출력 품질이 목표 모델과 동일하다는 것이 보장된다.
참조 기반 추론 — 입력에서 초안 토큰을 가져오는 방식. 요약이나 편집처럼 입출력 간 중복이 있는 생성에서만 유용하다.
병렬 디코딩(야코비 디코딩) — 순차적 의존성을 제거하여 병렬로 토큰 생성. 연구 단계의 기법이다.

어텐션 메커니즘 최적화

다음 토큰을 생성하려면 이전 토큰들의 키와 값이 필요하며, 이를 KV 캐시에 저장한다. 시퀀스가 길어질수록 KV 캐시의 메모리 사용량이 선형으로 증가하기 때문에, 이를 최적화하는 것이 매우 중요하다.

세 가지 최적화 방향이 있다.

1. 어텐션 메커니즘 재설계 (학습/파인튜닝 단계에서 적용)

기법	원리	효과
로컬 윈도우 어텐션	가까운 토큰만 참조	계산량 감소
크로스 레이어 어텐션	레이어 간 KV 공유	KV 캐시 절감
그룹 쿼리 어텐션 (GQA)	여러 쿼리 헤드가 KV 헤드를 공유	KV 캐시 20배 이상 절감

2. KV 캐시 크기 최적화

vLLM의 페이지드 어텐션 — OS의 가상 메모리처럼 KV 캐시를 비연속 블록으로 나누어 메모리 단편화를 줄이고, 유연하게 공유. vLLM이 추론 서빙의 사실상 표준이 된 핵심 기술이다.
KV 캐시 양자화, 적응형 압축, 선택적 캐시 등

3. 어텐션 연산을 위한 커널 작성

가장 잘 알려진 커널은 플래시 어텐션(Flash Attention). GPU의 온칩 SRAM을 최대한 활용하여 HBM 접근을 최소화한다.

연산 속도를 높이는 네 가지 일반적인 기법은 벡터화, 병렬화, 루프 타일링, 연산자 융합이다.

추론 서비스 최적화

대부분 서비스 수준 최적화 기법은 리소스 관리에 집중한다.

배치 처리

방식	설명
정적 배치	정해진 수만큼 대기 후 실행
동적 배치	정해진 시간만큼 대기 후 실행
연속 배치 (인플라이트 배치)	배치의 응답이 끝나는 대로 바로 수행

프리필과 디코딩 분리

연산 제약(프리필)과 대역폭 제약(디코딩)이 서로 다르므로, 함께 처리하면 어느 한 쪽 때문에 전체가 느려질 수 있다. 분리하면 각각에 최적화된 자원을 할당할 수 있다.

이 아키텍처를 프리필-디코드 분리(PD Disaggregation)라 하며, Mooncake, DistServe 등의 시스템이 이 접근법을 채택하고 있다.

프롬프트 캐싱

컨텍스트 캐시, 프리픽스 캐시라고도 불린다. 반복되는 프롬프트 접두사의 KV 캐시를 재사용하여 TTFT를 줄인다.

# 프롬프트 캐싱의 효과
요청 1: [시스템 프롬프트 | 사용자 질문 A]  → 프리필 전체 수행
요청 2: [시스템 프롬프트 | 사용자 질문 B]  → 시스템 프롬프트의 KV 캐시 재사용
                                             → 사용자 질문 B만 프리필

긴 시스템 프롬프트를 사용하는 애플리케이션에서 특히 효과적이다. OpenAI, Anthropic 등 주요 API 제공자들이 프롬프트 캐싱을 지원하며, 캐시 히트 시 비용을 할인해준다.

병렬 처리

방식	분할 대상	설명
데이터 병렬 처리	배치	동일 모델을 여러 GPU에 복제하고 배치를 나눠 처리
모델 병렬 처리 (텐서)	레이어 내부	하나의 레이어를 여러 GPU에 분할
모델 병렬 처리 (파이프라인)	레이어 간	레이어 그룹을 서로 다른 GPU에 배치
복제 병렬 처리	모델 전체	모델을 여러 벌 복제하여 병렬 서빙
컨텍스트 병렬 처리	시퀀스	긴 입력 시퀀스를 여러 GPU에 분할
시퀀스 병렬 처리	시퀀스 (LayerNorm 등)	텐서 병렬과 함께 사용, 비어텐션 연산을 분할

각 방식은 분할 대상과 프로세스 흐름이 조금씩 다르며, 실제로는 여러 방식을 조합하여 사용한다. 예를 들어 데이터 병렬 + 텐서 병렬의 조합이 일반적이다.

연산 제약(Compute-bound) — 작업을 끝내는 데 걸리는 연산 시간이 병목. 계산할 양이 너무 많다.
메모리 대역폭 제약(Memory-bandwidth-bound) — 데이터 전송 속도가 병목. 계산은 빠르지만 데이터를 가져오는 게 느리다.