본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
← 전체 글

온디바이스 AI와 엣지 추론

10편총 122분 읽기4,436자
  1. 1

    1장: 온디바이스 AI의 등장과 핵심 개념

    온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.

    2026년 2월 25일·9분 읽기
  2. 2

    2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

    모델 양자화의 핵심 원리, 부동소수점과 정수 표현, 양자화 형식(대칭/비대칭, 채널/그룹), 품질-크기 트레이드오프를 체계적으로 다룹니다.

    2026년 2월 27일·11분 읽기
  3. 3

    3장: GGUF와 llama.cpp 생태계

    온디바이스 LLM 추론의 핵심인 GGUF 형식과 llama.cpp의 아키텍처, 설치와 사용법, 성능 최적화, 그리고 주요 프론트엔드 도구를 다룹니다.

    2026년 3월 1일·10분 읽기
  4. 4

    4장: AWQ, GPTQ, 양자화 기법 비교

    GPU 추론에 최적화된 AWQ와 GPTQ 양자화 기법의 원리, 차이점, 그리고 GGUF와의 비교를 통해 상황별 최적 양자화 전략을 제시합니다.

    2026년 3월 3일·12분 읽기
  5. 5

    5장: WebLLM과 브라우저에서의 LLM 추론

    WebGPU를 활용한 브라우저 내 LLM 추론의 원리, WebLLM과 MLC LLM의 아키텍처, 실전 구현, 그리고 브라우저 AI의 가능성과 한계를 다룹니다.

    2026년 3월 5일·12분 읽기
  6. 6

    6장: 모바일 디바이스에서의 AI 추론

    iOS와 Android에서의 LLM 추론 기법 — Apple MLX, Core ML, MediaPipe, Qualcomm AI Engine, 그리고 모바일 AI 앱 개발 패턴을 다룹니다.

    2026년 3월 7일·12분 읽기
  7. 7

    7장: 엣지 하드웨어와 전용 가속기

    온디바이스 AI를 위한 하드웨어 가속기 — Apple Neural Engine, Qualcomm NPU, NVIDIA Jetson, Intel NPU의 아키텍처와 성능 특성을 비교합니다.

    2026년 3월 9일·15분 읽기
  8. 8

    8장: 온디바이스 AI 애플리케이션 패턴

    온디바이스 AI를 활용한 실전 애플리케이션 설계 패턴 — 하이브리드 추론, 오프라인 우선, 프라이버시 보존, 개인화 학습, 그리고 에지-클라우드 협업을 다룹니다.

    2026년 3월 11일·13분 읽기
  9. 9

    9장: 성능 벤치마킹과 최적화

    온디바이스 AI 시스템의 성능 벤치마킹 방법론, 핵심 지표, 하드웨어별 성능 비교, 그리고 토큰 처리량과 메모리 사용을 최적화하는 기법을 다룹니다.

    2026년 3월 13일·13분 읽기
  10. 10

    10장: 실전 프로젝트 — 온디바이스 AI 시스템 구축

    시리즈 전체의 기법을 종합하여 프라이버시 보존 문서 분석 시스템을 구축합니다. 로컬 LLM, 로컬 임베딩, 로컬 벡터 DB로 완전한 오프라인 AI를 실현합니다.

    2026년 3월 15일·15분 읽기