온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.
AI 모델의 추론(Inference)은 대부분 클라우드 서버에서 이루어집니다. 그러나 프라이버시, 지연 시간, 비용, 오프라인 사용 등의 이유로 사용자의 디바이스에서 직접 AI를 실행하는 수요가 급증하고 있습니다. 스마트폰, 노트북, 브라우저, IoT 디바이스에서 LLM을 구동하는 온디바이스 AI(On-Device AI) 가 현실이 된 것입니다. 이 장에서는 온디바이스 AI의 핵심 개념과 기술 지형을 조망합니다.
| 한계 | 설명 |
|---|---|
| 프라이버시 | 민감 데이터가 외부 서버로 전송됨 |
| 지연 시간 | 네트워크 왕복 시간 추가 (100ms~1s) |
| 비용 | API 호출당 과금, 대량 처리 시 비용 증가 |
| 가용성 | 인터넷 연결 필수, 서비스 장애 시 사용 불가 |
| 대역폭 | 음성/이미지/영상 데이터의 지속적 업로드 필요 |
| 장점 | 설명 |
|---|---|
| 프라이버시 | 데이터가 디바이스를 떠나지 않음 |
| 지연 시간 | 네트워크 없이 즉시 추론 (수~수백 ms) |
| 비용 | 초기 모델 다운로드 후 추가 비용 없음 |
| 오프라인 | 인터넷 없이도 동작 |
| 커스터마이징 | 사용자별 개인화된 모델 가능 |
클라우드 GPU: 80GB VRAM, 수백 TFLOPS
↓ 격차
노트북 (Apple M4 Max): 128GB 통합 메모리, ~50 TFLOPS
↓ 격차
스마트폰 (최신): 8~16GB RAM, ~10 TFLOPS
↓ 격차
IoT 디바이스: 512MB~4GB RAM, ~1 TFLOPS
이 격차를 극복하는 핵심 기술이 모델 양자화, 아키텍처 최적화, 하드웨어 가속입니다.
[소형 언어 모델] ← Phi, Gemma, Llama 소형 변형
↓
[양자화] ← GGUF, AWQ, GPTQ, bitsandbytes
↓
[추론 엔진] ← llama.cpp, MLX, ONNX Runtime, TensorRT
↓
[하드웨어 가속] ← CPU SIMD, GPU, NPU, Neural Engine
↓
[디바이스] ← 노트북, 스마트폰, 브라우저, IoT
온디바이스 추론에 적합한 소형 모델들이 빠르게 발전하고 있습니다.
| 모델 | 파라미터 | 특징 |
|---|---|---|
| Phi-4-mini | 3.8B | Microsoft, 수학/코딩 강점 |
| Gemma 3 | 1B~4B | Google, 다국어, 멀티모달 |
| Llama 3.2 | 1B/3B | Meta, 경량 텍스트 모델 |
| Qwen 2.5 | 0.5B~3B | Alibaba, 다국어 |
| SmolLM 2 | 135M~1.7B | Hugging Face, 초경량 |
| Mistral Small | 8B | Mistral, 균형 잡힌 성능 |
소형 모델은 대형 모델과 비교하면 복잡한 추론이나 장문 생성에서 품질 차이가 있습니다. 그러나 단순 분류, 요약, 번역, 코드 자동완성 등의 작업에서는 실용적인 수준에 도달했습니다. 핵심은 모델의 크기가 아니라, 작업에 맞는 모델을 선택하는 것입니다.
모델의 가중치를 낮은 정밀도(비트 수)로 변환하여 메모리 사용량과 계산량을 줄이는 기법입니다.
FP32 (32비트) → 모델 크기 100%
FP16 (16비트) → 모델 크기 50%
INT8 (8비트) → 모델 크기 25%
INT4 (4비트) → 모델 크기 12.5%
INT2 (2비트) → 모델 크기 6.25%
7B 파라미터 모델 기준:
| 엔진 | 플랫폼 | 특징 |
|---|---|---|
| llama.cpp | 크로스 플랫폼 | C/C++, GGUF 형식, 가장 넓은 호환성 |
| MLX | Apple Silicon | Apple 최적화, Python 친화적 |
| ONNX Runtime | 크로스 플랫폼 | Microsoft, 범용 추론 엔진 |
| MLC LLM | 크로스 플랫폼 | WebGPU/Vulkan/Metal, 브라우저 지원 |
| ExLlamaV2 | NVIDIA GPU | GPTQ/EXL2, GPU 추론 최적화 |
| MediaPipe | Android/iOS | Google, 모바일 특화 |
| 가속기 | 제조사 | 성능 범위 |
|---|---|---|
| Apple Neural Engine (ANE) | Apple | 38 TOPS (M4 Pro) |
| Qualcomm Hexagon NPU | Qualcomm | 45 TOPS (Snapdragon 8 Elite) |
| Intel NPU | Intel | 11~48 TOPS (Lunar Lake) |
| Google Tensor TPU | Pixel 내장 | |
| NVIDIA Jetson | NVIDIA | 100~275 TOPS (Orin) |
| AMD XDNA NPU | AMD | 최대 50 TOPS |
Apple M4 Pro MacBook Pro에서 Llama 3.2 3B Q4_K_M 모델을 실행하면 약 50~80 tok/s의 생성 속도를 달성합니다. 이는 사람이 읽는 속도보다 빠르며, 체감상 클라우드 API와 유사한 경험입니다.
최신 플래그십 스마트폰(iPhone 16 Pro, Galaxy S25 Ultra)에서 1~3B 파라미터 모델을 4비트 양자화로 실행하면 약 10~30 tok/s를 달성합니다. 간단한 대화, 번역, 요약에 실용적인 수준입니다.
WebGPU를 지원하는 최신 브라우저에서 소형 모델(1~3B)을 실행할 수 있습니다. 성능은 네이티브 대비 50~70% 수준이지만, 설치 없이 웹 페이지에서 바로 AI를 사용할 수 있다는 큰 장점이 있습니다.
온디바이스 AI는 프라이버시, 지연 시간, 비용, 오프라인 사용의 장점으로 AI 배포의 새로운 축을 형성하고 있습니다. 소형 언어 모델, 양자화, 효율적 추론 엔진, 전용 하드웨어 가속기의 발전이 이를 가능하게 했습니다. 다음 장부터 각 기술을 하나씩 깊이 파고들어 보겠습니다. 먼저 2장에서는 온디바이스 AI의 핵심 기반인 모델 양자화를 다룹니다.
이 글이 도움이 되셨나요?
관련 주제 더 보기
모델 양자화의 핵심 원리, 부동소수점과 정수 표현, 양자화 형식(대칭/비대칭, 채널/그룹), 품질-크기 트레이드오프를 체계적으로 다룹니다.
온디바이스 LLM 추론의 핵심인 GGUF 형식과 llama.cpp의 아키텍처, 설치와 사용법, 성능 최적화, 그리고 주요 프론트엔드 도구를 다룹니다.
GPU 추론에 최적화된 AWQ와 GPTQ 양자화 기법의 원리, 차이점, 그리고 GGUF와의 비교를 통해 상황별 최적 양자화 전략을 제시합니다.