2026년 3월 9일·AI / ML·

7장: 엣지 하드웨어와 전용 가속기

온디바이스 AI를 위한 하드웨어 가속기 — Apple Neural Engine, Qualcomm NPU, NVIDIA Jetson, Intel NPU의 아키텍처와 성능 특성을 비교합니다.

15분510자11개 섹션

이전6장: 모바일 디바이스에서의 AI 추론 다음8장: 온디바이스 AI 애플리케이션 패턴

들어가며

6장에서 모바일 디바이스에서의 LLM 추론을 다루면서, Core ML이 Apple Neural Engine을, MediaPipe가 GPU/NPU를 활용한다는 것을 확인했습니다. 이번 장에서는 이 가속기들의 내부 아키텍처를 한 단계 더 깊이 살펴봅니다. NPU가 정확히 무엇이고, GPU와 어떻게 다르며, 어떤 워크로드에 적합한지를 이해해야 온디바이스 AI 시스템을 올바르게 설계할 수 있습니다.

NPU의 기본 개념

NPU(Neural Processing Unit)는 신경망 추론에 특화된 프로세서입니다. 범용 연산을 목표로 하는 CPU나 병렬 그래픽 연산에 최적화된 GPU와 달리, NPU는 행렬 곱셈(Matrix Multiplication)과 합성곱(Convolution) 연산을 극도로 효율적으로 수행하도록 설계되었습니다.

NPU의 핵심 설계 원칙은 다음과 같습니다.

데이터 재사용 극대화: 신경망 연산은 동일한 가중치를 여러 입력에 반복 적용하는 패턴이 지배적입니다. NPU는 온칩 SRAM에 가중치를 캐싱하여 외부 메모리 접근을 최소화합니다.

저정밀도 연산 특화: FP32 대신 INT8, INT4 연산기를 대량으로 탑재하여, 같은 면적과 전력 예산 내에서 훨씬 높은 처리량을 달성합니다.

에너지 효율 최적화: 모바일과 엣지 환경에서는 절대 성능보다 와트당 성능(Performance per Watt)이 중요합니다. NPU는 불필요한 데이터 이동을 제거하고 연산 유닛의 활용률을 높여 전력 효율을 극대화합니다.

Apple Neural Engine

Apple Neural Engine(ANE)은 Apple이 A11 Bionic(2017)부터 탑재한 전용 신경망 가속기입니다. 세대를 거듭하며 성능이 비약적으로 향상되어, M4 칩에서는 38 TOPS에 달하는 처리 성능을 제공합니다.

세대별 성능 변화

칩	연도	ANE 코어	TOPS	탑재 기기
A11 Bionic	2017	2	0.6	iPhone 8/X
A14 Bionic	2020	16	11	iPhone 12
A17 Pro	2023	16	35	iPhone 15 Pro
M1	2020	16	11	MacBook Air/Pro
M3	2023	16	18	MacBook Air/Pro
M4	2024	16	38	iPad Pro, MacBook Pro
M4 Max	2024	16	38	MacBook Pro, Mac Studio

ANE의 특징은 Apple의 통합 메모리 아키텍처와 긴밀하게 결합되어 있다는 점입니다. CPU, GPU, ANE가 동일한 물리 메모리를 공유하므로, 프로세서 간 데이터 복사 없이 연산을 전환할 수 있습니다. Core ML이 모델의 각 레이어를 분석하여 ANE, GPU, CPU 중 가장 적합한 프로세서에 자동으로 배치하는 것도 이 아키텍처 덕분입니다.

Info

ANE는 특정 연산 패턴에 최적화되어 있어, 모든 레이어가 ANE에서 실행되는 것은 아닙니다. Core ML은 ANE에서 효율적으로 처리할 수 없는 연산을 자동으로 GPU나 CPU로 폴백합니다. 모델을 ANE에 최적화하려면 지원되는 연산과 텐서 크기 제약을 사전에 확인해야 합니다.

Qualcomm Hexagon NPU

Hexagon NPU는 Qualcomm Snapdragon 프로세서에 통합된 신경망 가속기입니다. Snapdragon 8 Gen 3의 Hexagon NPU는 최대 45 TOPS의 INT8 성능을 제공하며, 이는 동일 칩의 GPU 대비 약 3배 높은 에너지 효율을 보입니다.

아키텍처 특성

Hexagon NPU는 마이크로 타일(Micro-tile) 아키텍처를 채택하고 있습니다. 대규모 텐서 연산을 작은 타일 단위로 분할하고, 각 타일을 독립적인 연산 유닛에서 병렬 처리합니다. 이 방식은 다양한 크기의 텐서에 대해 높은 연산 유닛 활용률을 유지할 수 있다는 장점이 있습니다.

qualcomm_ai_hub_profile.py

python

import qai_hub
 
# Qualcomm AI Hub를 통한 모델 프로파일링
model = qai_hub.get_model("Llama-3-8B-Chat-Quantized")
 
# 특정 디바이스에서의 성능 프로파일링
profile_job = qai_hub.submit_profile_job(
    model=model,
    device=qai_hub.Device("Samsung Galaxy S24"),
    options="--compute_unit npu",
)
 
# 프로파일링 결과 확인
profile = profile_job.download_profile()
print(f"추론 시간: {profile['inference_time_ms']:.1f} ms")
print(f"전력 소모: {profile['power_consumption_mw']:.1f} mW")
print(f"메모리 사용: {profile['peak_memory_mb']:.1f} MB")

Snapdragon X Elite(2024)부터는 PC용 Snapdragon에도 강화된 NPU가 탑재되어, 노트북에서도 45 TOPS 이상의 AI 연산 성능을 제공합니다. Microsoft의 Copilot+ PC 요구사항이 40 TOPS 이상인 것도 이러한 NPU 성능을 전제로 합니다.

Intel NPU

Intel NPU는 Meteor Lake(2023)부터 Intel 클라이언트 프로세서에 통합된 AI 가속기입니다. Intel은 이를 AI Boost라는 브랜드로 마케팅하고 있으며, Lunar Lake에서는 최대 48 TOPS의 성능을 제공합니다.

OpenVINO를 통한 활용

Intel NPU를 활용하기 위한 주요 소프트웨어 스택은 OpenVINO입니다. OpenVINO는 모델 최적화, 양자화, 추론 엔진을 제공하며, CPU, GPU, NPU를 백엔드로 지원합니다.

openvino_npu_inference.py

python

from optimum.intel import OVModelForCausalLM
from transformers import AutoTokenizer
 
# OpenVINO 형식으로 변환된 모델 로딩
model = OVModelForCausalLM.from_pretrained(
    "OpenVINO/Phi-3-mini-4k-instruct-int4-ov",
    device="NPU",  # NPU를 명시적으로 지정
    ov_config={
        "PERFORMANCE_HINT": "LATENCY",
        "NUM_STREAMS": 1,
        "CACHE_DIR": "./model_cache",
    },
)
tokenizer = AutoTokenizer.from_pretrained(
    "OpenVINO/Phi-3-mini-4k-instruct-int4-ov"
)
 
inputs = tokenizer("엣지 AI의 장점은", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Warning

Intel NPU는 아직 지원하는 모델 아키텍처와 연산에 제약이 있습니다. 특히 대형 LLM의 전체 추론을 NPU 단독으로 처리하는 것은 어려울 수 있으며, CPU/GPU와의 하이브리드 실행이 더 현실적인 접근입니다. OpenVINO의 AUTO 디바이스 플러그인을 사용하면 이를 자동으로 처리할 수 있습니다.

NVIDIA Jetson 시리즈

NVIDIA Jetson은 엣지 AI를 위한 임베디드 컴퓨팅 플랫폼입니다. 모바일 기기와 달리 IoT, 로보틱스, 산업용 AI 등 상시 전원 환경의 엣지 추론에 최적화되어 있습니다.

모델	GPU 코어	TOPS (INT8)	메모리	TDP	용도
Orin Nano	1024 CUDA	40	8GB	7-15W	IoT, 경량 AI
Orin NX	1024 CUDA	100	8-16GB	10-25W	로보틱스
AGX Orin	2048 CUDA	275	32-64GB	15-60W	자율주행, 산업 AI
Thor (차세대)	Blackwell	2000+	최대 128GB	TBD	자율주행 L4+

Jetson의 강점은 NVIDIA의 CUDA 생태계를 그대로 활용할 수 있다는 점입니다. TensorRT를 통한 모델 최적화, CUDA 커널을 활용한 커스텀 연산, DeepStream을 통한 비디오 분석 파이프라인 등 서버 GPU에서 사용하던 도구 체인을 엣지에서도 동일하게 사용할 수 있습니다.

jetson_llm_setup.sh

bash

# Jetson에서 llama.cpp 빌드 (CUDA 지원)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build \
  -DLLAMA_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES="87"  # Orin은 SM 8.7
cmake --build build --config Release -j$(nproc)
 
# 4비트 양자화 모델로 추론
./build/bin/llama-cli \
  -m ./models/llama-3.1-8b-q4_k_m.gguf \
  -p "엣지 컴퓨팅의 핵심 원리를 설명해주세요." \
  -n 256 \
  -ngl 99  # 전체 레이어 GPU 오프로딩

AMD XDNA

AMD XDNA는 AMD가 Ryzen AI 시리즈에 탑재한 NPU 아키텍처입니다. Xilinx의 적응형 컴퓨팅 기술을 기반으로 하며, Ryzen AI 300 시리즈에서는 최대 50 TOPS의 성능을 제공합니다. AMD는 XDNA를 Ryzen AI라는 브랜드로 마케팅하고 있으며, ONNX Runtime과 DirectML을 통해 접근할 수 있습니다.

Google Coral Edge TPU

Google Coral Edge TPU는 Google이 TensorFlow Lite 모델의 엣지 추론을 위해 개발한 ASIC입니다. USB Accelerator, Dev Board, M.2/Mini PCIe 모듈 등 다양한 폼팩터로 제공됩니다. INT8 연산에 특화되어 4 TOPS의 성능을 2W 이내의 전력으로 달성합니다.

Edge TPU는 LLM 추론보다는 이미지 분류, 객체 탐지 등 비교적 작은 모델의 실시간 추론에 적합합니다. 대형 언어 모델 추론에는 메모리와 연산 성능이 부족하지만, 엣지 AI 생태계의 선구자로서 중요한 위치를 차지하고 있습니다.

TOPS 비교 및 해석

주요 엣지 하드웨어의 공칭 TOPS 성능을 비교하면 다음과 같습니다.

하드웨어	TOPS (INT8)	TDP	TOPS/W	주요 타겟
Apple M4 ANE	38	~10W (SoC)	~3.8	Mac/iPad
Snapdragon 8 Gen 3 NPU	45	~5W (NPU)	~9.0	스마트폰
Intel Lunar Lake NPU	48	~10W (NPU)	~4.8	노트북
AMD XDNA (Ryzen AI 300)	50	~12W (NPU)	~4.2	노트북
NVIDIA Jetson AGX Orin	275	60W	~4.6	산업/로보틱스
Google Coral Edge TPU	4	2W	2.0	IoT

Warning

TOPS는 이론적 최대 처리량이며, 실제 LLM 추론 성능과 직접 비교하기 어렵습니다. LLM 추론은 메모리 대역폭에 의해 병목이 발생하는 경우가 많아, TOPS보다 메모리 대역폭(GB/s)이 실질적인 성능 지표가 되기도 합니다. Apple Silicon이 LLM 추론에서 좋은 성능을 보이는 이유 중 하나도 높은 메모리 대역폭(M4 Max: 546GB/s)에 있습니다.

CPU vs GPU vs NPU: 추론 전략

동일한 디바이스 내에서도 어떤 프로세서를 사용하느냐에 따라 성능과 효율이 크게 달라집니다.

CPU는 가장 범용적이고 호환성이 높지만, 병렬 연산 효율이 낮아 대형 모델 추론에는 부적합합니다. 다만 SIMD 명령어(AVX-512, NEON)를 활용한 양자화 모델 추론에서는 합리적인 성능을 제공합니다.

GPU는 대량 병렬 연산에 강하며, 다양한 연산을 유연하게 처리할 수 있습니다. 모든 레이어와 연산을 지원하므로 호환성 문제가 적고, NPU 대비 프로그래밍이 자유롭습니다.

NPU는 특정 신경망 연산에서 최고의 에너지 효율을 달성하지만, 지원하는 연산 종류에 제한이 있습니다. 최신 LLM의 복잡한 어텐션 메커니즘이나 커스텀 활성화 함수를 NPU에서 실행하지 못하는 경우가 있으며, 이때는 GPU나 CPU로 폴백해야 합니다.

현실적인 최적 전략은 하이브리드 실행입니다. 모델의 각 레이어를 분석하여 NPU에서 효율적으로 처리할 수 있는 부분은 NPU에, 나머지는 GPU에 할당하는 방식입니다. Apple의 Core ML, Intel의 OpenVINO, Qualcomm의 QNN 모두 이러한 하이브리드 실행을 지원합니다.

마치며

엣지 하드웨어의 AI 가속 성능은 해마다 급격히 향상되고 있습니다. 2024년 기준 40-50 TOPS를 제공하는 NPU들이 보편화되었고, 이는 4비트 양자화된 7-8B 모델을 실용적인 속도로 추론하기에 충분한 수준입니다.

그러나 하드웨어 성능만으로는 좋은 온디바이스 AI 경험을 만들 수 없습니다. 하드웨어의 특성을 이해하고, 적절한 모델을 선택하며, 효율적인 소프트웨어 파이프라인을 구축하는 것이 핵심입니다.

다음 8장에서는 이러한 하드웨어 기반 위에서 온디바이스 AI 애플리케이션을 실제로 설계하고 구현하는 패턴을 다룹니다. RAG, 에이전트, 하이브리드 아키텍처 등 실전적인 애플리케이션 아키텍처를 살펴보겠습니다.

이 글이 도움이 되셨나요?

AI / ML

8장: 온디바이스 AI 애플리케이션 패턴

온디바이스 AI를 활용한 실전 애플리케이션 설계 패턴 — 하이브리드 추론, 오프라인 우선, 프라이버시 보존, 개인화 학습, 그리고 에지-클라우드 협업을 다룹니다.

2026년 3월 11일·13분

AI / ML

6장: 모바일 디바이스에서의 AI 추론

iOS와 Android에서의 LLM 추론 기법 — Apple MLX, Core ML, MediaPipe, Qualcomm AI Engine, 그리고 모바일 AI 앱 개발 패턴을 다룹니다.

2026년 3월 7일·12분

AI / ML

9장: 성능 벤치마킹과 최적화

온디바이스 AI 시스템의 성능 벤치마킹 방법론, 핵심 지표, 하드웨어별 성능 비교, 그리고 토큰 처리량과 메모리 사용을 최적화하는 기법을 다룹니다.

2026년 3월 13일·13분

2026년 3월 9일·AI / ML·

7장: 엣지 하드웨어와 전용 가속기

온디바이스 AI를 위한 하드웨어 가속기 — Apple Neural Engine, Qualcomm NPU, NVIDIA Jetson, Intel NPU의 아키텍처와 성능 특성을 비교합니다.

15분510자11개 섹션

llm performance mlops

on-device-ai7 / 10

1 2 3 4 5 6 7 8 9 10

이전6장: 모바일 디바이스에서의 AI 추론 다음8장: 온디바이스 AI 애플리케이션 패턴

칩	연도	ANE 코어	TOPS	탑재 기기
A11 Bionic	2017	2	0.6	iPhone 8/X
A14 Bionic	2020	16	11	iPhone 12
A17 Pro	2023	16	35	iPhone 15 Pro
M1	2020	16	11	MacBook Air/Pro
M3	2023	16	18	MacBook Air/Pro
M4	2024	16	38	iPad Pro, MacBook Pro
M4 Max	2024	16	38	MacBook Pro, Mac Studio

Info

Qualcomm Hexagon NPU

아키텍처 특성

qualcomm_ai_hub_profile.py

python

import qai_hub
 
# Qualcomm AI Hub를 통한 모델 프로파일링
model = qai_hub.get_model("Llama-3-8B-Chat-Quantized")
 
# 특정 디바이스에서의 성능 프로파일링
profile_job = qai_hub.submit_profile_job(
    model=model,
    device=qai_hub.Device("Samsung Galaxy S24"),
    options="--compute_unit npu",
)
 
# 프로파일링 결과 확인
profile = profile_job.download_profile()
print(f"추론 시간: {profile['inference_time_ms']:.1f} ms")
print(f"전력 소모: {profile['power_consumption_mw']:.1f} mW")
print(f"메모리 사용: {profile['peak_memory_mb']:.1f} MB")

Intel NPU

OpenVINO를 통한 활용

openvino_npu_inference.py

python

from optimum.intel import OVModelForCausalLM
from transformers import AutoTokenizer
 
# OpenVINO 형식으로 변환된 모델 로딩
model = OVModelForCausalLM.from_pretrained(
    "OpenVINO/Phi-3-mini-4k-instruct-int4-ov",
    device="NPU",  # NPU를 명시적으로 지정
    ov_config={
        "PERFORMANCE_HINT": "LATENCY",
        "NUM_STREAMS": 1,
        "CACHE_DIR": "./model_cache",
    },
)
tokenizer = AutoTokenizer.from_pretrained(
    "OpenVINO/Phi-3-mini-4k-instruct-int4-ov"
)
 
inputs = tokenizer("엣지 AI의 장점은", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Warning

NVIDIA Jetson 시리즈

모델	GPU 코어	TOPS (INT8)	메모리	TDP	용도
Orin Nano	1024 CUDA	40	8GB	7-15W	IoT, 경량 AI
Orin NX	1024 CUDA	100	8-16GB	10-25W	로보틱스
AGX Orin	2048 CUDA	275	32-64GB	15-60W	자율주행, 산업 AI
Thor (차세대)	Blackwell	2000+	최대 128GB	TBD	자율주행 L4+

jetson_llm_setup.sh

bash

# Jetson에서 llama.cpp 빌드 (CUDA 지원)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build \
  -DLLAMA_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES="87"  # Orin은 SM 8.7
cmake --build build --config Release -j$(nproc)
 
# 4비트 양자화 모델로 추론
./build/bin/llama-cli \
  -m ./models/llama-3.1-8b-q4_k_m.gguf \
  -p "엣지 컴퓨팅의 핵심 원리를 설명해주세요." \
  -n 256 \
  -ngl 99  # 전체 레이어 GPU 오프로딩

하드웨어	TOPS (INT8)	TDP	TOPS/W	주요 타겟
Apple M4 ANE	38	~10W (SoC)	~3.8	Mac/iPad
Snapdragon 8 Gen 3 NPU	45	~5W (NPU)	~9.0	스마트폰
Intel Lunar Lake NPU	48	~10W (NPU)	~4.8	노트북
AMD XDNA (Ryzen AI 300)	50	~12W (NPU)	~4.2	노트북
NVIDIA Jetson AGX Orin	275	60W	~4.6	산업/로보틱스
Google Coral Edge TPU	4	2W	2.0	IoT

Warning

AI / ML

9장: 성능 벤치마킹과 최적화

온디바이스 AI 시스템의 성능 벤치마킹 방법론, 핵심 지표, 하드웨어별 성능 비교, 그리고 토큰 처리량과 메모리 사용을 최적화하는 기법을 다룹니다.

2026년 3월 13일·13분

7장: 엣지 하드웨어와 전용 가속기

들어가며

NPU의 기본 개념

Apple Neural Engine

세대별 성능 변화

Qualcomm Hexagon NPU

아키텍처 특성

Intel NPU

OpenVINO를 통한 활용

NVIDIA Jetson 시리즈

AMD XDNA

Google Coral Edge TPU

TOPS 비교 및 해석

CPU vs GPU vs NPU: 추론 전략

마치며

관련 글

8장: 온디바이스 AI 애플리케이션 패턴

6장: 모바일 디바이스에서의 AI 추론

9장: 성능 벤치마킹과 최적화

댓글

7장: 엣지 하드웨어와 전용 가속기

들어가며

NPU의 기본 개념

Apple Neural Engine

세대별 성능 변화

Qualcomm Hexagon NPU

아키텍처 특성

Intel NPU

OpenVINO를 통한 활용

NVIDIA Jetson 시리즈

AMD XDNA

Google Coral Edge TPU

TOPS 비교 및 해석

CPU vs GPU vs NPU: 추론 전략

마치며

관련 글

8장: 온디바이스 AI 애플리케이션 패턴

6장: 모바일 디바이스에서의 AI 추론

9장: 성능 벤치마킹과 최적화

댓글