본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
//
  1. 홈
  2. 테크
  3. 1장: 온디바이스 AI의 등장과 핵심 개념
2026년 2월 25일·AI / ML·

1장: 온디바이스 AI의 등장과 핵심 개념

온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.

9분203자5개 섹션
llmperformancemlops
공유
on-device-ai1 / 10
12345678910
다음2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

AI 모델의 추론(Inference)은 대부분 클라우드 서버에서 이루어집니다. 그러나 프라이버시, 지연 시간, 비용, 오프라인 사용 등의 이유로 사용자의 디바이스에서 직접 AI를 실행하는 수요가 급증하고 있습니다. 스마트폰, 노트북, 브라우저, IoT 디바이스에서 LLM을 구동하는 온디바이스 AI(On-Device AI) 가 현실이 된 것입니다. 이 장에서는 온디바이스 AI의 핵심 개념과 기술 지형을 조망합니다.

왜 온디바이스 AI인가

클라우드 추론의 한계

한계설명
프라이버시민감 데이터가 외부 서버로 전송됨
지연 시간네트워크 왕복 시간 추가 (100ms~1s)
비용API 호출당 과금, 대량 처리 시 비용 증가
가용성인터넷 연결 필수, 서비스 장애 시 사용 불가
대역폭음성/이미지/영상 데이터의 지속적 업로드 필요

온디바이스 AI의 장점

장점설명
프라이버시데이터가 디바이스를 떠나지 않음
지연 시간네트워크 없이 즉시 추론 (수~수백 ms)
비용초기 모델 다운로드 후 추가 비용 없음
오프라인인터넷 없이도 동작
커스터마이징사용자별 개인화된 모델 가능

온디바이스 AI의 도전

클라우드 GPU:          80GB VRAM, 수백 TFLOPS
↓ 격차
노트북 (Apple M4 Max): 128GB 통합 메모리, ~50 TFLOPS
↓ 격차
스마트폰 (최신):       8~16GB RAM, ~10 TFLOPS
↓ 격차
IoT 디바이스:          512MB~4GB RAM, ~1 TFLOPS

이 격차를 극복하는 핵심 기술이 모델 양자화, 아키텍처 최적화, 하드웨어 가속입니다.

온디바이스 AI의 기술 스택

[소형 언어 모델] ← Phi, Gemma, Llama 소형 변형
       ↓
[양자화] ← GGUF, AWQ, GPTQ, bitsandbytes
       ↓
[추론 엔진] ← llama.cpp, MLX, ONNX Runtime, TensorRT
       ↓
[하드웨어 가속] ← CPU SIMD, GPU, NPU, Neural Engine
       ↓
[디바이스] ← 노트북, 스마트폰, 브라우저, IoT

소형 언어 모델 (Small Language Models)

온디바이스 추론에 적합한 소형 모델들이 빠르게 발전하고 있습니다.

모델파라미터특징
Phi-4-mini3.8BMicrosoft, 수학/코딩 강점
Gemma 31B~4BGoogle, 다국어, 멀티모달
Llama 3.21B/3BMeta, 경량 텍스트 모델
Qwen 2.50.5B~3BAlibaba, 다국어
SmolLM 2135M~1.7BHugging Face, 초경량
Mistral Small8BMistral, 균형 잡힌 성능
Info

소형 모델은 대형 모델과 비교하면 복잡한 추론이나 장문 생성에서 품질 차이가 있습니다. 그러나 단순 분류, 요약, 번역, 코드 자동완성 등의 작업에서는 실용적인 수준에 도달했습니다. 핵심은 모델의 크기가 아니라, 작업에 맞는 모델을 선택하는 것입니다.

양자화 (Quantization)

모델의 가중치를 낮은 정밀도(비트 수)로 변환하여 메모리 사용량과 계산량을 줄이는 기법입니다.

FP32 (32비트) → 모델 크기 100%
FP16 (16비트) → 모델 크기 50%
INT8 (8비트)  → 모델 크기 25%
INT4 (4비트)  → 모델 크기 12.5%
INT2 (2비트)  → 모델 크기 6.25%

7B 파라미터 모델 기준:

  • FP16: ~14GB (클라우드 GPU 필요)
  • Q8_0: ~7GB (고사양 노트북)
  • Q4_K_M: ~4GB (일반 노트북)
  • Q2_K: ~2.5GB (스마트폰 가능)

추론 엔진

엔진플랫폼특징
llama.cpp크로스 플랫폼C/C++, GGUF 형식, 가장 넓은 호환성
MLXApple SiliconApple 최적화, Python 친화적
ONNX Runtime크로스 플랫폼Microsoft, 범용 추론 엔진
MLC LLM크로스 플랫폼WebGPU/Vulkan/Metal, 브라우저 지원
ExLlamaV2NVIDIA GPUGPTQ/EXL2, GPU 추론 최적화
MediaPipeAndroid/iOSGoogle, 모바일 특화

하드웨어 가속기

가속기제조사성능 범위
Apple Neural Engine (ANE)Apple38 TOPS (M4 Pro)
Qualcomm Hexagon NPUQualcomm45 TOPS (Snapdragon 8 Elite)
Intel NPUIntel11~48 TOPS (Lunar Lake)
Google Tensor TPUGooglePixel 내장
NVIDIA JetsonNVIDIA100~275 TOPS (Orin)
AMD XDNA NPUAMD최대 50 TOPS

현재 기술 수준

노트북 (2025~2026 기준)

Apple M4 Pro MacBook Pro에서 Llama 3.2 3B Q4_K_M 모델을 실행하면 약 50~80 tok/s의 생성 속도를 달성합니다. 이는 사람이 읽는 속도보다 빠르며, 체감상 클라우드 API와 유사한 경험입니다.

스마트폰

최신 플래그십 스마트폰(iPhone 16 Pro, Galaxy S25 Ultra)에서 1~3B 파라미터 모델을 4비트 양자화로 실행하면 약 10~30 tok/s를 달성합니다. 간단한 대화, 번역, 요약에 실용적인 수준입니다.

브라우저

WebGPU를 지원하는 최신 브라우저에서 소형 모델(1~3B)을 실행할 수 있습니다. 성능은 네이티브 대비 50~70% 수준이지만, 설치 없이 웹 페이지에서 바로 AI를 사용할 수 있다는 큰 장점이 있습니다.

이 시리즈에서 다루는 내용

  • 2장: 모델 양자화 기초 — 정밀도, 형식, 품질-크기 트레이드오프
  • 3장: GGUF와 llama.cpp 생태계
  • 4장: AWQ, GPTQ, 양자화 기법 비교
  • 5장: WebLLM과 브라우저에서의 LLM 추론
  • 6장: 모바일 디바이스에서의 AI 추론
  • 7장: 엣지 하드웨어와 전용 가속기
  • 8장: 온디바이스 AI 애플리케이션 패턴
  • 9장: 성능 벤치마킹과 최적화
  • 10장: 실전 프로젝트 — 온디바이스 AI 시스템 구축

정리

온디바이스 AI는 프라이버시, 지연 시간, 비용, 오프라인 사용의 장점으로 AI 배포의 새로운 축을 형성하고 있습니다. 소형 언어 모델, 양자화, 효율적 추론 엔진, 전용 하드웨어 가속기의 발전이 이를 가능하게 했습니다. 다음 장부터 각 기술을 하나씩 깊이 파고들어 보겠습니다. 먼저 2장에서는 온디바이스 AI의 핵심 기반인 모델 양자화를 다룹니다.

이 글이 도움이 되셨나요?

관련 주제 더 보기

#llm#performance#mlops

관련 글

AI / ML

2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

모델 양자화의 핵심 원리, 부동소수점과 정수 표현, 양자화 형식(대칭/비대칭, 채널/그룹), 품질-크기 트레이드오프를 체계적으로 다룹니다.

2026년 2월 27일·11분
AI / ML

3장: GGUF와 llama.cpp 생태계

온디바이스 LLM 추론의 핵심인 GGUF 형식과 llama.cpp의 아키텍처, 설치와 사용법, 성능 최적화, 그리고 주요 프론트엔드 도구를 다룹니다.

2026년 3월 1일·10분
AI / ML

4장: AWQ, GPTQ, 양자화 기법 비교

GPU 추론에 최적화된 AWQ와 GPTQ 양자화 기법의 원리, 차이점, 그리고 GGUF와의 비교를 통해 상황별 최적 양자화 전략을 제시합니다.

2026년 3월 3일·12분
다음 글2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

댓글

목차

약 9분 남음
  • 왜 온디바이스 AI인가
    • 클라우드 추론의 한계
    • 온디바이스 AI의 장점
    • 온디바이스 AI의 도전
  • 온디바이스 AI의 기술 스택
    • 소형 언어 모델 (Small Language Models)
    • 양자화 (Quantization)
    • 추론 엔진
    • 하드웨어 가속기
  • 현재 기술 수준
    • 노트북 (2025~2026 기준)
    • 스마트폰
    • 브라우저
  • 이 시리즈에서 다루는 내용
  • 정리