2026년 2월 25일·AI / ML·

1장: 온디바이스 AI의 등장과 핵심 개념

온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.

9분203자5개 섹션

AI 모델의 추론(Inference)은 대부분 클라우드 서버에서 이루어집니다. 그러나 프라이버시, 지연 시간, 비용, 오프라인 사용 등의 이유로 사용자의 디바이스에서 직접 AI를 실행하는 수요가 급증하고 있습니다. 스마트폰, 노트북, 브라우저, IoT 디바이스에서 LLM을 구동하는 온디바이스 AI(On-Device AI) 가 현실이 된 것입니다. 이 장에서는 온디바이스 AI의 핵심 개념과 기술 지형을 조망합니다.

왜 온디바이스 AI인가

클라우드 추론의 한계

한계	설명
프라이버시	민감 데이터가 외부 서버로 전송됨
지연 시간	네트워크 왕복 시간 추가 (100ms~1s)
비용	API 호출당 과금, 대량 처리 시 비용 증가
가용성	인터넷 연결 필수, 서비스 장애 시 사용 불가
대역폭	음성/이미지/영상 데이터의 지속적 업로드 필요

온디바이스 AI의 장점

장점	설명
프라이버시	데이터가 디바이스를 떠나지 않음
지연 시간	네트워크 없이 즉시 추론 (수~수백 ms)
비용	초기 모델 다운로드 후 추가 비용 없음
오프라인	인터넷 없이도 동작
커스터마이징	사용자별 개인화된 모델 가능

온디바이스 AI의 도전

클라우드 GPU:          80GB VRAM, 수백 TFLOPS
↓ 격차
노트북 (Apple M4 Max): 128GB 통합 메모리, ~50 TFLOPS
↓ 격차
스마트폰 (최신):       8~16GB RAM, ~10 TFLOPS
↓ 격차
IoT 디바이스:          512MB~4GB RAM, ~1 TFLOPS

이 격차를 극복하는 핵심 기술이 모델 양자화, 아키텍처 최적화, 하드웨어 가속입니다.

온디바이스 AI의 기술 스택

[소형 언어 모델] ← Phi, Gemma, Llama 소형 변형
       ↓
[양자화] ← GGUF, AWQ, GPTQ, bitsandbytes
       ↓
[추론 엔진] ← llama.cpp, MLX, ONNX Runtime, TensorRT
       ↓
[하드웨어 가속] ← CPU SIMD, GPU, NPU, Neural Engine
       ↓
[디바이스] ← 노트북, 스마트폰, 브라우저, IoT

소형 언어 모델 (Small Language Models)

온디바이스 추론에 적합한 소형 모델들이 빠르게 발전하고 있습니다.

모델	파라미터	특징
Phi-4-mini	3.8B	Microsoft, 수학/코딩 강점
Gemma 3	1B~4B	Google, 다국어, 멀티모달
Llama 3.2	1B/3B	Meta, 경량 텍스트 모델
Qwen 2.5	0.5B~3B	Alibaba, 다국어
SmolLM 2	135M~1.7B	Hugging Face, 초경량
Mistral Small	8B	Mistral, 균형 잡힌 성능

Info

소형 모델은 대형 모델과 비교하면 복잡한 추론이나 장문 생성에서 품질 차이가 있습니다. 그러나 단순 분류, 요약, 번역, 코드 자동완성 등의 작업에서는 실용적인 수준에 도달했습니다. 핵심은 모델의 크기가 아니라, 작업에 맞는 모델을 선택하는 것입니다.

양자화 (Quantization)

모델의 가중치를 낮은 정밀도(비트 수)로 변환하여 메모리 사용량과 계산량을 줄이는 기법입니다.

FP32 (32비트) → 모델 크기 100%
FP16 (16비트) → 모델 크기 50%
INT8 (8비트)  → 모델 크기 25%
INT4 (4비트)  → 모델 크기 12.5%
INT2 (2비트)  → 모델 크기 6.25%

7B 파라미터 모델 기준:

FP16: ~14GB (클라우드 GPU 필요)
Q8_0: ~7GB (고사양 노트북)
Q4_K_M: ~4GB (일반 노트북)
Q2_K: ~2.5GB (스마트폰 가능)

추론 엔진

엔진	플랫폼	특징
llama.cpp	크로스 플랫폼	C/C++, GGUF 형식, 가장 넓은 호환성
MLX	Apple Silicon	Apple 최적화, Python 친화적
ONNX Runtime	크로스 플랫폼	Microsoft, 범용 추론 엔진
MLC LLM	크로스 플랫폼	WebGPU/Vulkan/Metal, 브라우저 지원
ExLlamaV2	NVIDIA GPU	GPTQ/EXL2, GPU 추론 최적화
MediaPipe	Android/iOS	Google, 모바일 특화

하드웨어 가속기

가속기	제조사	성능 범위
Apple Neural Engine (ANE)	Apple	38 TOPS (M4 Pro)
Qualcomm Hexagon NPU	Qualcomm	45 TOPS (Snapdragon 8 Elite)
Intel NPU	Intel	11~48 TOPS (Lunar Lake)
Google Tensor TPU	Google	Pixel 내장
NVIDIA Jetson	NVIDIA	100~275 TOPS (Orin)
AMD XDNA NPU	AMD	최대 50 TOPS

현재 기술 수준

노트북 (2025~2026 기준)

Apple M4 Pro MacBook Pro에서 Llama 3.2 3B Q4_K_M 모델을 실행하면 약 50~80 tok/s의 생성 속도를 달성합니다. 이는 사람이 읽는 속도보다 빠르며, 체감상 클라우드 API와 유사한 경험입니다.

스마트폰

최신 플래그십 스마트폰(iPhone 16 Pro, Galaxy S25 Ultra)에서 1~3B 파라미터 모델을 4비트 양자화로 실행하면 약 10~30 tok/s를 달성합니다. 간단한 대화, 번역, 요약에 실용적인 수준입니다.

브라우저

WebGPU를 지원하는 최신 브라우저에서 소형 모델(1~3B)을 실행할 수 있습니다. 성능은 네이티브 대비 50~70% 수준이지만, 설치 없이 웹 페이지에서 바로 AI를 사용할 수 있다는 큰 장점이 있습니다.

이 시리즈에서 다루는 내용

2장: 모델 양자화 기초 — 정밀도, 형식, 품질-크기 트레이드오프
3장: GGUF와 llama.cpp 생태계
4장: AWQ, GPTQ, 양자화 기법 비교
5장: WebLLM과 브라우저에서의 LLM 추론
6장: 모바일 디바이스에서의 AI 추론
7장: 엣지 하드웨어와 전용 가속기
8장: 온디바이스 AI 애플리케이션 패턴
9장: 성능 벤치마킹과 최적화
10장: 실전 프로젝트 — 온디바이스 AI 시스템 구축

정리

온디바이스 AI는 프라이버시, 지연 시간, 비용, 오프라인 사용의 장점으로 AI 배포의 새로운 축을 형성하고 있습니다. 소형 언어 모델, 양자화, 효율적 추론 엔진, 전용 하드웨어 가속기의 발전이 이를 가능하게 했습니다. 다음 장부터 각 기술을 하나씩 깊이 파고들어 보겠습니다. 먼저 2장에서는 온디바이스 AI의 핵심 기반인 모델 양자화를 다룹니다.

이 글이 도움이 되셨나요?

AI / ML

2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

모델 양자화의 핵심 원리, 부동소수점과 정수 표현, 양자화 형식(대칭/비대칭, 채널/그룹), 품질-크기 트레이드오프를 체계적으로 다룹니다.

2026년 2월 27일·11분

AI / ML

3장: GGUF와 llama.cpp 생태계

온디바이스 LLM 추론의 핵심인 GGUF 형식과 llama.cpp의 아키텍처, 설치와 사용법, 성능 최적화, 그리고 주요 프론트엔드 도구를 다룹니다.

2026년 3월 1일·10분

AI / ML

4장: AWQ, GPTQ, 양자화 기법 비교

GPU 추론에 최적화된 AWQ와 GPTQ 양자화 기법의 원리, 차이점, 그리고 GGUF와의 비교를 통해 상황별 최적 양자화 전략을 제시합니다.

2026년 3월 3일·12분

2026년 2월 25일·AI / ML·

1장: 온디바이스 AI의 등장과 핵심 개념

온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.

9분203자5개 섹션

llm performance mlops

on-device-ai1 / 10

1 2 3 4 5 6 7 8 9 10

다음2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

왜 온디바이스 AI인가

클라우드 추론의 한계

한계	설명
프라이버시	민감 데이터가 외부 서버로 전송됨
지연 시간	네트워크 왕복 시간 추가 (100ms~1s)
비용	API 호출당 과금, 대량 처리 시 비용 증가
가용성	인터넷 연결 필수, 서비스 장애 시 사용 불가
대역폭	음성/이미지/영상 데이터의 지속적 업로드 필요

온디바이스 AI의 장점

장점	설명
프라이버시	데이터가 디바이스를 떠나지 않음
지연 시간	네트워크 없이 즉시 추론 (수~수백 ms)
비용	초기 모델 다운로드 후 추가 비용 없음
오프라인	인터넷 없이도 동작
커스터마이징	사용자별 개인화된 모델 가능

온디바이스 AI의 도전

클라우드 GPU:          80GB VRAM, 수백 TFLOPS
↓ 격차
노트북 (Apple M4 Max): 128GB 통합 메모리, ~50 TFLOPS
↓ 격차
스마트폰 (최신):       8~16GB RAM, ~10 TFLOPS
↓ 격차
IoT 디바이스:          512MB~4GB RAM, ~1 TFLOPS

이 격차를 극복하는 핵심 기술이 모델 양자화, 아키텍처 최적화, 하드웨어 가속입니다.

온디바이스 AI의 기술 스택

[소형 언어 모델] ← Phi, Gemma, Llama 소형 변형
       ↓
[양자화] ← GGUF, AWQ, GPTQ, bitsandbytes
       ↓
[추론 엔진] ← llama.cpp, MLX, ONNX Runtime, TensorRT
       ↓
[하드웨어 가속] ← CPU SIMD, GPU, NPU, Neural Engine
       ↓
[디바이스] ← 노트북, 스마트폰, 브라우저, IoT

소형 언어 모델 (Small Language Models)

온디바이스 추론에 적합한 소형 모델들이 빠르게 발전하고 있습니다.

모델	파라미터	특징
Phi-4-mini	3.8B	Microsoft, 수학/코딩 강점
Gemma 3	1B~4B	Google, 다국어, 멀티모달
Llama 3.2	1B/3B	Meta, 경량 텍스트 모델
Qwen 2.5	0.5B~3B	Alibaba, 다국어
SmolLM 2	135M~1.7B	Hugging Face, 초경량
Mistral Small	8B	Mistral, 균형 잡힌 성능

Info

양자화 (Quantization)

모델의 가중치를 낮은 정밀도(비트 수)로 변환하여 메모리 사용량과 계산량을 줄이는 기법입니다.

FP32 (32비트) → 모델 크기 100%
FP16 (16비트) → 모델 크기 50%
INT8 (8비트)  → 모델 크기 25%
INT4 (4비트)  → 모델 크기 12.5%
INT2 (2비트)  → 모델 크기 6.25%

7B 파라미터 모델 기준:

FP16: ~14GB (클라우드 GPU 필요)
Q8_0: ~7GB (고사양 노트북)
Q4_K_M: ~4GB (일반 노트북)
Q2_K: ~2.5GB (스마트폰 가능)

추론 엔진

엔진	플랫폼	특징
llama.cpp	크로스 플랫폼	C/C++, GGUF 형식, 가장 넓은 호환성
MLX	Apple Silicon	Apple 최적화, Python 친화적
ONNX Runtime	크로스 플랫폼	Microsoft, 범용 추론 엔진
MLC LLM	크로스 플랫폼	WebGPU/Vulkan/Metal, 브라우저 지원
ExLlamaV2	NVIDIA GPU	GPTQ/EXL2, GPU 추론 최적화
MediaPipe	Android/iOS	Google, 모바일 특화

하드웨어 가속기

가속기	제조사	성능 범위
Apple Neural Engine (ANE)	Apple	38 TOPS (M4 Pro)
Qualcomm Hexagon NPU	Qualcomm	45 TOPS (Snapdragon 8 Elite)
Intel NPU	Intel	11~48 TOPS (Lunar Lake)
Google Tensor TPU	Google	Pixel 내장
NVIDIA Jetson	NVIDIA	100~275 TOPS (Orin)
AMD XDNA NPU	AMD	최대 50 TOPS

2장: 모델 양자화 기초 — 정밀도, 형식, 품질-크기 트레이드오프
3장: GGUF와 llama.cpp 생태계
4장: AWQ, GPTQ, 양자화 기법 비교
5장: WebLLM과 브라우저에서의 LLM 추론
6장: 모바일 디바이스에서의 AI 추론
7장: 엣지 하드웨어와 전용 가속기
8장: 온디바이스 AI 애플리케이션 패턴
9장: 성능 벤치마킹과 최적화
10장: 실전 프로젝트 — 온디바이스 AI 시스템 구축