AI / ML10편 · 164분
LLM 추론 최적화 Deep Dive
트랜스포머 기반 LLM의 추론 과정을 Prefill과 Decode 단계로 나누어 분석하고, 메모리 바운드와 컴퓨트 바운드의 개념, 핵심 지연시간 지표를 정리합니다.
기술, 튜토리얼, 회고 등 개발과 관련된 글을 기록합니다.
트랜스포머 기반 LLM의 추론 과정을 Prefill과 Decode 단계로 나누어 분석하고, 메모리 바운드와 컴퓨트 바운드의 개념, 핵심 지연시간 지표를 정리합니다.
온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.
AI 모델을 프로덕션에 배포하기 위한 전체 파이프라인을 조망하고, 전통적 웹 서비스와 다른 AI 서비스만의 고유한 배포 과제를 분석합니다.
"AI / ML" 3개 시리즈