본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
//
  1. 홈
  2. 테크
  3. 7장: 엣지 하드웨어와 전용 가속기
2026년 3월 9일·AI / ML·

7장: 엣지 하드웨어와 전용 가속기

온디바이스 AI를 위한 하드웨어 가속기 — Apple Neural Engine, Qualcomm NPU, NVIDIA Jetson, Intel NPU의 아키텍처와 성능 특성을 비교합니다.

15분510자11개 섹션
llmperformancemlops
공유
on-device-ai7 / 10
12345678910
이전6장: 모바일 디바이스에서의 AI 추론다음8장: 온디바이스 AI 애플리케이션 패턴

들어가며

6장에서 모바일 디바이스에서의 LLM 추론을 다루면서, Core ML이 Apple Neural Engine을, MediaPipe가 GPU/NPU를 활용한다는 것을 확인했습니다. 이번 장에서는 이 가속기들의 내부 아키텍처를 한 단계 더 깊이 살펴봅니다. NPU가 정확히 무엇이고, GPU와 어떻게 다르며, 어떤 워크로드에 적합한지를 이해해야 온디바이스 AI 시스템을 올바르게 설계할 수 있습니다.

NPU의 기본 개념

NPU(Neural Processing Unit)는 신경망 추론에 특화된 프로세서입니다. 범용 연산을 목표로 하는 CPU나 병렬 그래픽 연산에 최적화된 GPU와 달리, NPU는 행렬 곱셈(Matrix Multiplication)과 합성곱(Convolution) 연산을 극도로 효율적으로 수행하도록 설계되었습니다.

NPU의 핵심 설계 원칙은 다음과 같습니다.

데이터 재사용 극대화: 신경망 연산은 동일한 가중치를 여러 입력에 반복 적용하는 패턴이 지배적입니다. NPU는 온칩 SRAM에 가중치를 캐싱하여 외부 메모리 접근을 최소화합니다.

저정밀도 연산 특화: FP32 대신 INT8, INT4 연산기를 대량으로 탑재하여, 같은 면적과 전력 예산 내에서 훨씬 높은 처리량을 달성합니다.

에너지 효율 최적화: 모바일과 엣지 환경에서는 절대 성능보다 와트당 성능(Performance per Watt)이 중요합니다. NPU는 불필요한 데이터 이동을 제거하고 연산 유닛의 활용률을 높여 전력 효율을 극대화합니다.

Apple Neural Engine

Apple Neural Engine(ANE)은 Apple이 A11 Bionic(2017)부터 탑재한 전용 신경망 가속기입니다. 세대를 거듭하며 성능이 비약적으로 향상되어, M4 칩에서는 38 TOPS에 달하는 처리 성능을 제공합니다.

세대별 성능 변화

칩연도ANE 코어TOPS탑재 기기
A11 Bionic201720.6iPhone 8/X
A14 Bionic20201611iPhone 12
A17 Pro20231635iPhone 15 Pro
M120201611MacBook Air/Pro
M320231618MacBook Air/Pro
M420241638iPad Pro, MacBook Pro
M4 Max20241638MacBook Pro, Mac Studio

ANE의 특징은 Apple의 통합 메모리 아키텍처와 긴밀하게 결합되어 있다는 점입니다. CPU, GPU, ANE가 동일한 물리 메모리를 공유하므로, 프로세서 간 데이터 복사 없이 연산을 전환할 수 있습니다. Core ML이 모델의 각 레이어를 분석하여 ANE, GPU, CPU 중 가장 적합한 프로세서에 자동으로 배치하는 것도 이 아키텍처 덕분입니다.

Info

ANE는 특정 연산 패턴에 최적화되어 있어, 모든 레이어가 ANE에서 실행되는 것은 아닙니다. Core ML은 ANE에서 효율적으로 처리할 수 없는 연산을 자동으로 GPU나 CPU로 폴백합니다. 모델을 ANE에 최적화하려면 지원되는 연산과 텐서 크기 제약을 사전에 확인해야 합니다.

Qualcomm Hexagon NPU

Hexagon NPU는 Qualcomm Snapdragon 프로세서에 통합된 신경망 가속기입니다. Snapdragon 8 Gen 3의 Hexagon NPU는 최대 45 TOPS의 INT8 성능을 제공하며, 이는 동일 칩의 GPU 대비 약 3배 높은 에너지 효율을 보입니다.

아키텍처 특성

Hexagon NPU는 마이크로 타일(Micro-tile) 아키텍처를 채택하고 있습니다. 대규모 텐서 연산을 작은 타일 단위로 분할하고, 각 타일을 독립적인 연산 유닛에서 병렬 처리합니다. 이 방식은 다양한 크기의 텐서에 대해 높은 연산 유닛 활용률을 유지할 수 있다는 장점이 있습니다.

qualcomm_ai_hub_profile.py
python
import qai_hub
 
# Qualcomm AI Hub를 통한 모델 프로파일링
model = qai_hub.get_model("Llama-3-8B-Chat-Quantized")
 
# 특정 디바이스에서의 성능 프로파일링
profile_job = qai_hub.submit_profile_job(
    model=model,
    device=qai_hub.Device("Samsung Galaxy S24"),
    options="--compute_unit npu",
)
 
# 프로파일링 결과 확인
profile = profile_job.download_profile()
print(f"추론 시간: {profile['inference_time_ms']:.1f} ms")
print(f"전력 소모: {profile['power_consumption_mw']:.1f} mW")
print(f"메모리 사용: {profile['peak_memory_mb']:.1f} MB")

Snapdragon X Elite(2024)부터는 PC용 Snapdragon에도 강화된 NPU가 탑재되어, 노트북에서도 45 TOPS 이상의 AI 연산 성능을 제공합니다. Microsoft의 Copilot+ PC 요구사항이 40 TOPS 이상인 것도 이러한 NPU 성능을 전제로 합니다.

Intel NPU

Intel NPU는 Meteor Lake(2023)부터 Intel 클라이언트 프로세서에 통합된 AI 가속기입니다. Intel은 이를 AI Boost라는 브랜드로 마케팅하고 있으며, Lunar Lake에서는 최대 48 TOPS의 성능을 제공합니다.

OpenVINO를 통한 활용

Intel NPU를 활용하기 위한 주요 소프트웨어 스택은 OpenVINO입니다. OpenVINO는 모델 최적화, 양자화, 추론 엔진을 제공하며, CPU, GPU, NPU를 백엔드로 지원합니다.

openvino_npu_inference.py
python
from optimum.intel import OVModelForCausalLM
from transformers import AutoTokenizer
 
# OpenVINO 형식으로 변환된 모델 로딩
model = OVModelForCausalLM.from_pretrained(
    "OpenVINO/Phi-3-mini-4k-instruct-int4-ov",
    device="NPU",  # NPU를 명시적으로 지정
    ov_config={
        "PERFORMANCE_HINT": "LATENCY",
        "NUM_STREAMS": 1,
        "CACHE_DIR": "./model_cache",
    },
)
tokenizer = AutoTokenizer.from_pretrained(
    "OpenVINO/Phi-3-mini-4k-instruct-int4-ov"
)
 
inputs = tokenizer("엣지 AI의 장점은", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Warning

Intel NPU는 아직 지원하는 모델 아키텍처와 연산에 제약이 있습니다. 특히 대형 LLM의 전체 추론을 NPU 단독으로 처리하는 것은 어려울 수 있으며, CPU/GPU와의 하이브리드 실행이 더 현실적인 접근입니다. OpenVINO의 AUTO 디바이스 플러그인을 사용하면 이를 자동으로 처리할 수 있습니다.

NVIDIA Jetson 시리즈

NVIDIA Jetson은 엣지 AI를 위한 임베디드 컴퓨팅 플랫폼입니다. 모바일 기기와 달리 IoT, 로보틱스, 산업용 AI 등 상시 전원 환경의 엣지 추론에 최적화되어 있습니다.

모델GPU 코어TOPS (INT8)메모리TDP용도
Orin Nano1024 CUDA408GB7-15WIoT, 경량 AI
Orin NX1024 CUDA1008-16GB10-25W로보틱스
AGX Orin2048 CUDA27532-64GB15-60W자율주행, 산업 AI
Thor (차세대)Blackwell2000+최대 128GBTBD자율주행 L4+

Jetson의 강점은 NVIDIA의 CUDA 생태계를 그대로 활용할 수 있다는 점입니다. TensorRT를 통한 모델 최적화, CUDA 커널을 활용한 커스텀 연산, DeepStream을 통한 비디오 분석 파이프라인 등 서버 GPU에서 사용하던 도구 체인을 엣지에서도 동일하게 사용할 수 있습니다.

jetson_llm_setup.sh
bash
# Jetson에서 llama.cpp 빌드 (CUDA 지원)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build \
  -DLLAMA_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES="87"  # Orin은 SM 8.7
cmake --build build --config Release -j$(nproc)
 
# 4비트 양자화 모델로 추론
./build/bin/llama-cli \
  -m ./models/llama-3.1-8b-q4_k_m.gguf \
  -p "엣지 컴퓨팅의 핵심 원리를 설명해주세요." \
  -n 256 \
  -ngl 99  # 전체 레이어 GPU 오프로딩

AMD XDNA

AMD XDNA는 AMD가 Ryzen AI 시리즈에 탑재한 NPU 아키텍처입니다. Xilinx의 적응형 컴퓨팅 기술을 기반으로 하며, Ryzen AI 300 시리즈에서는 최대 50 TOPS의 성능을 제공합니다. AMD는 XDNA를 Ryzen AI라는 브랜드로 마케팅하고 있으며, ONNX Runtime과 DirectML을 통해 접근할 수 있습니다.

Google Coral Edge TPU

Google Coral Edge TPU는 Google이 TensorFlow Lite 모델의 엣지 추론을 위해 개발한 ASIC입니다. USB Accelerator, Dev Board, M.2/Mini PCIe 모듈 등 다양한 폼팩터로 제공됩니다. INT8 연산에 특화되어 4 TOPS의 성능을 2W 이내의 전력으로 달성합니다.

Edge TPU는 LLM 추론보다는 이미지 분류, 객체 탐지 등 비교적 작은 모델의 실시간 추론에 적합합니다. 대형 언어 모델 추론에는 메모리와 연산 성능이 부족하지만, 엣지 AI 생태계의 선구자로서 중요한 위치를 차지하고 있습니다.

TOPS 비교 및 해석

주요 엣지 하드웨어의 공칭 TOPS 성능을 비교하면 다음과 같습니다.

하드웨어TOPS (INT8)TDPTOPS/W주요 타겟
Apple M4 ANE38~10W (SoC)~3.8Mac/iPad
Snapdragon 8 Gen 3 NPU45~5W (NPU)~9.0스마트폰
Intel Lunar Lake NPU48~10W (NPU)~4.8노트북
AMD XDNA (Ryzen AI 300)50~12W (NPU)~4.2노트북
NVIDIA Jetson AGX Orin27560W~4.6산업/로보틱스
Google Coral Edge TPU42W2.0IoT
Warning

TOPS는 이론적 최대 처리량이며, 실제 LLM 추론 성능과 직접 비교하기 어렵습니다. LLM 추론은 메모리 대역폭에 의해 병목이 발생하는 경우가 많아, TOPS보다 메모리 대역폭(GB/s)이 실질적인 성능 지표가 되기도 합니다. Apple Silicon이 LLM 추론에서 좋은 성능을 보이는 이유 중 하나도 높은 메모리 대역폭(M4 Max: 546GB/s)에 있습니다.

CPU vs GPU vs NPU: 추론 전략

동일한 디바이스 내에서도 어떤 프로세서를 사용하느냐에 따라 성능과 효율이 크게 달라집니다.

CPU는 가장 범용적이고 호환성이 높지만, 병렬 연산 효율이 낮아 대형 모델 추론에는 부적합합니다. 다만 SIMD 명령어(AVX-512, NEON)를 활용한 양자화 모델 추론에서는 합리적인 성능을 제공합니다.

GPU는 대량 병렬 연산에 강하며, 다양한 연산을 유연하게 처리할 수 있습니다. 모든 레이어와 연산을 지원하므로 호환성 문제가 적고, NPU 대비 프로그래밍이 자유롭습니다.

NPU는 특정 신경망 연산에서 최고의 에너지 효율을 달성하지만, 지원하는 연산 종류에 제한이 있습니다. 최신 LLM의 복잡한 어텐션 메커니즘이나 커스텀 활성화 함수를 NPU에서 실행하지 못하는 경우가 있으며, 이때는 GPU나 CPU로 폴백해야 합니다.

현실적인 최적 전략은 하이브리드 실행입니다. 모델의 각 레이어를 분석하여 NPU에서 효율적으로 처리할 수 있는 부분은 NPU에, 나머지는 GPU에 할당하는 방식입니다. Apple의 Core ML, Intel의 OpenVINO, Qualcomm의 QNN 모두 이러한 하이브리드 실행을 지원합니다.

마치며

엣지 하드웨어의 AI 가속 성능은 해마다 급격히 향상되고 있습니다. 2024년 기준 40-50 TOPS를 제공하는 NPU들이 보편화되었고, 이는 4비트 양자화된 7-8B 모델을 실용적인 속도로 추론하기에 충분한 수준입니다.

그러나 하드웨어 성능만으로는 좋은 온디바이스 AI 경험을 만들 수 없습니다. 하드웨어의 특성을 이해하고, 적절한 모델을 선택하며, 효율적인 소프트웨어 파이프라인을 구축하는 것이 핵심입니다.

다음 8장에서는 이러한 하드웨어 기반 위에서 온디바이스 AI 애플리케이션을 실제로 설계하고 구현하는 패턴을 다룹니다. RAG, 에이전트, 하이브리드 아키텍처 등 실전적인 애플리케이션 아키텍처를 살펴보겠습니다.

이 글이 도움이 되셨나요?

관련 주제 더 보기

#llm#performance#mlops

관련 글

AI / ML

8장: 온디바이스 AI 애플리케이션 패턴

온디바이스 AI를 활용한 실전 애플리케이션 설계 패턴 — 하이브리드 추론, 오프라인 우선, 프라이버시 보존, 개인화 학습, 그리고 에지-클라우드 협업을 다룹니다.

2026년 3월 11일·13분
AI / ML

6장: 모바일 디바이스에서의 AI 추론

iOS와 Android에서의 LLM 추론 기법 — Apple MLX, Core ML, MediaPipe, Qualcomm AI Engine, 그리고 모바일 AI 앱 개발 패턴을 다룹니다.

2026년 3월 7일·12분
AI / ML

9장: 성능 벤치마킹과 최적화

온디바이스 AI 시스템의 성능 벤치마킹 방법론, 핵심 지표, 하드웨어별 성능 비교, 그리고 토큰 처리량과 메모리 사용을 최적화하는 기법을 다룹니다.

2026년 3월 13일·13분
이전 글6장: 모바일 디바이스에서의 AI 추론
다음 글8장: 온디바이스 AI 애플리케이션 패턴

댓글

목차

약 15분 남음
  • 들어가며
  • NPU의 기본 개념
  • Apple Neural Engine
    • 세대별 성능 변화
  • Qualcomm Hexagon NPU
    • 아키텍처 특성
  • Intel NPU
    • OpenVINO를 통한 활용
  • NVIDIA Jetson 시리즈
  • AMD XDNA
  • Google Coral Edge TPU
  • TOPS 비교 및 해석
  • CPU vs GPU vs NPU: 추론 전략
  • 마치며