본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
← 전체 글

LLM 추론 최적화 Deep Dive

10편총 164분 읽기3,370자
  1. 1

    1장: LLM 추론의 기초와 병목 지점

    트랜스포머 기반 LLM의 추론 과정을 Prefill과 Decode 단계로 나누어 분석하고, 메모리 바운드와 컴퓨트 바운드의 개념, 핵심 지연시간 지표를 정리합니다.

    2026년 3월 16일·14분 읽기
  2. 2

    2장: KV 캐시 메커니즘 심층 분석

    트랜스포머 Attention에서 KV 캐시의 역할과 메모리 사용량 계산법을 다루고, MQA/GQA 등 캐시 절감 기법과 압축 전략을 분석합니다.

    2026년 3월 18일·15분 읽기
  3. 3

    3장: PagedAttention과 vLLM

    OS 가상 메모리에서 영감받은 PagedAttention의 원리를 설명하고, vLLM의 아키텍처와 Automatic Prefix Caching, 계층적 KV 캐시를 분석합니다.

    2026년 3월 20일·16분 읽기
  4. 4

    4장: Continuous Batching과 동적 배칭

    정적 배칭의 한계를 분석하고, Continuous Batching의 iteration-level 스케줄링 원리와 vLLM, TGI, TensorRT-LLM의 구현 차이를 비교합니다.

    2026년 3월 22일·16분 읽기
  5. 5

    5장: Speculative Decoding — 추측 기반 가속

    Draft-Verify 패러다임으로 자기회귀 디코딩을 가속하는 Speculative Decoding의 원리, 수학적 보장, 그리고 Medusa, Eagle 등 변형 기법을 분석합니다.

    2026년 3월 24일·17분 읽기
  6. 6

    6장: Prefix Caching과 프롬프트 최적화

    시스템 프롬프트 캐싱, Prefix-aware 스케줄링, RadixAttention의 원리를 분석하고, 멀티턴 대화와 평가 워크플로우에서의 성능 개선을 다룹니다.

    2026년 3월 26일·17분 읽기
  7. 7

    7장: 양자화 추론 — FP8, INT8, INT4

    양자화의 기초 개념부터 FP8의 부상, W8A8/W4A16 전략, GPTQ/AWQ/SmoothQuant 기법, KV 캐시 양자화까지 정확도와 성능의 트레이드오프를 분석합니다.

    2026년 3월 28일·16분 읽기
  8. 8

    8장: 모델 병렬화와 분산 추론

    텐서 병렬화, 파이프라인 병렬화, 시퀀스 병렬화, Expert 병렬화의 원리를 분석하고, 멀티 GPU 추론 전략과 클러스터 수준 최적화를 다룹니다.

    2026년 3월 30일·17분 읽기
  9. 9

    9장: 비용 vs 지연시간 트레이드오프

    GPU 선택, 클라우드 vs 온프레미스, 배칭 전략이 비용과 지연시간에 미치는 영향을 분석하고, SLO 기반 최적화와 비용 모델링 방법을 다룹니다.

    2026년 4월 1일·16분 읽기
  10. 10

    10장: 프로덕션 추론 최적화 실전

    FP8, FlashAttention 3, Continuous Batching, Speculative Decoding을 조합해 5-8배 비용 효율을 달성하는 실전 배포 파이프라인과 모니터링 전략을 다룹니다.

    2026년 4월 3일·20분 읽기