본문으로 건너뛰기

Tech Projects Books About

Tech Projects Books About

Tech Projects Books About

© 2026 Kreath. All rights reserved.

홈 Tech Projects Books About

홈
테크
온디바이스 AI와 엣지 추론 시리즈

온디바이스 AI와 엣지 추론

온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.

10편총 122분 읽기4,436자

1
1장: 온디바이스 AI의 등장과 핵심 개념
온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.
2026년 2월 25일9분
2
2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프
모델 양자화의 핵심 원리, 부동소수점과 정수 표현, 양자화 형식(대칭/비대칭, 채널/그룹), 품질-크기 트레이드오프를 체계적으로 다룹니다.
2026년 2월 27일11분
3
3장: GGUF와 llama.cpp 생태계
온디바이스 LLM 추론의 핵심인 GGUF 형식과 llama.cpp의 아키텍처, 설치와 사용법, 성능 최적화, 그리고 주요 프론트엔드 도구를 다룹니다.
2026년 3월 1일10분
4
4장: AWQ, GPTQ, 양자화 기법 비교
GPU 추론에 최적화된 AWQ와 GPTQ 양자화 기법의 원리, 차이점, 그리고 GGUF와의 비교를 통해 상황별 최적 양자화 전략을 제시합니다.
2026년 3월 3일12분
5
5장: WebLLM과 브라우저에서의 LLM 추론
WebGPU를 활용한 브라우저 내 LLM 추론의 원리, WebLLM과 MLC LLM의 아키텍처, 실전 구현, 그리고 브라우저 AI의 가능성과 한계를 다룹니다.
2026년 3월 5일12분
6
6장: 모바일 디바이스에서의 AI 추론
iOS와 Android에서의 LLM 추론 기법 — Apple MLX, Core ML, MediaPipe, Qualcomm AI Engine, 그리고 모바일 AI 앱 개발 패턴을 다룹니다.
2026년 3월 7일12분
7
7장: 엣지 하드웨어와 전용 가속기
온디바이스 AI를 위한 하드웨어 가속기 — Apple Neural Engine, Qualcomm NPU, NVIDIA Jetson, Intel NPU의 아키텍처와 성능 특성을 비교합니다.
2026년 3월 9일15분
8
8장: 온디바이스 AI 애플리케이션 패턴
온디바이스 AI를 활용한 실전 애플리케이션 설계 패턴 — 하이브리드 추론, 오프라인 우선, 프라이버시 보존, 개인화 학습, 그리고 에지-클라우드 협업을 다룹니다.
2026년 3월 11일13분
9
9장: 성능 벤치마킹과 최적화
온디바이스 AI 시스템의 성능 벤치마킹 방법론, 핵심 지표, 하드웨어별 성능 비교, 그리고 토큰 처리량과 메모리 사용을 최적화하는 기법을 다룹니다.
2026년 3월 13일13분
10
10장: 실전 프로젝트 — 온디바이스 AI 시스템 구축
시리즈 전체의 기법을 종합하여 프라이버시 보존 문서 분석 시스템을 구축합니다. 로컬 LLM, 로컬 임베딩, 로컬 벡터 DB로 완전한 오프라인 AI를 실현합니다.
2026년 3월 15일15분