← 모든 태그

#performance

66개의 글

AI / ML20분 읽기

10장: 프로덕션 추론 최적화 실전

FP8, FlashAttention 3, Continuous Batching, Speculative Decoding을 조합해 5-8배 비용 효율을 달성하는 실전 배포 파이프라인과 모니터링 전략을 다룹니다.

AI / ML16분 읽기

9장: 비용 vs 지연시간 트레이드오프

GPU 선택, 클라우드 vs 온프레미스, 배칭 전략이 비용과 지연시간에 미치는 영향을 분석하고, SLO 기반 최적화와 비용 모델링 방법을 다룹니다.

AI / ML17분 읽기

8장: 모델 병렬화와 분산 추론

텐서 병렬화, 파이프라인 병렬화, 시퀀스 병렬화, Expert 병렬화의 원리를 분석하고, 멀티 GPU 추론 전략과 클러스터 수준 최적화를 다룹니다.

AI / ML16분 읽기

7장: 양자화 추론 — FP8, INT8, INT4

양자화의 기초 개념부터 FP8의 부상, W8A8/W4A16 전략, GPTQ/AWQ/SmoothQuant 기법, KV 캐시 양자화까지 정확도와 성능의 트레이드오프를 분석합니다.

AI / ML17분 읽기

6장: Prefix Caching과 프롬프트 최적화

시스템 프롬프트 캐싱, Prefix-aware 스케줄링, RadixAttention의 원리를 분석하고, 멀티턴 대화와 평가 워크플로우에서의 성능 개선을 다룹니다.

AI / ML17분 읽기

5장: Speculative Decoding — 추측 기반 가속

Draft-Verify 패러다임으로 자기회귀 디코딩을 가속하는 Speculative Decoding의 원리, 수학적 보장, 그리고 Medusa, Eagle 등 변형 기법을 분석합니다.

AI / ML16분 읽기

4장: Continuous Batching과 동적 배칭

정적 배칭의 한계를 분석하고, Continuous Batching의 iteration-level 스케줄링 원리와 vLLM, TGI, TensorRT-LLM의 구현 차이를 비교합니다.

AI / ML16분 읽기

3장: PagedAttention과 vLLM

OS 가상 메모리에서 영감받은 PagedAttention의 원리를 설명하고, vLLM의 아키텍처와 Automatic Prefix Caching, 계층적 KV 캐시를 분석합니다.

AI / ML15분 읽기

2장: KV 캐시 메커니즘 심층 분석

트랜스포머 Attention에서 KV 캐시의 역할과 메모리 사용량 계산법을 다루고, MQA/GQA 등 캐시 절감 기법과 압축 전략을 분석합니다.

AI / ML14분 읽기

1장: LLM 추론의 기초와 병목 지점

트랜스포머 기반 LLM의 추론 과정을 Prefill과 Decode 단계로 나누어 분석하고, 메모리 바운드와 컴퓨트 바운드의 개념, 핵심 지연시간 지표를 정리합니다.

AI / ML15분 읽기

10장: 실전 프로젝트 — 온디바이스 AI 시스템 구축

시리즈 전체의 기법을 종합하여 프라이버시 보존 문서 분석 시스템을 구축합니다. 로컬 LLM, 로컬 임베딩, 로컬 벡터 DB로 완전한 오프라인 AI를 실현합니다.

AI / ML13분 읽기

9장: 성능 벤치마킹과 최적화

온디바이스 AI 시스템의 성능 벤치마킹 방법론, 핵심 지표, 하드웨어별 성능 비교, 그리고 토큰 처리량과 메모리 사용을 최적화하는 기법을 다룹니다.

AI / ML13분 읽기

8장: 온디바이스 AI 애플리케이션 패턴

온디바이스 AI를 활용한 실전 애플리케이션 설계 패턴 — 하이브리드 추론, 오프라인 우선, 프라이버시 보존, 개인화 학습, 그리고 에지-클라우드 협업을 다룹니다.

AI / ML15분 읽기

7장: 엣지 하드웨어와 전용 가속기

온디바이스 AI를 위한 하드웨어 가속기 — Apple Neural Engine, Qualcomm NPU, NVIDIA Jetson, Intel NPU의 아키텍처와 성능 특성을 비교합니다.

AI / ML12분 읽기

6장: 모바일 디바이스에서의 AI 추론

iOS와 Android에서의 LLM 추론 기법 — Apple MLX, Core ML, MediaPipe, Qualcomm AI Engine, 그리고 모바일 AI 앱 개발 패턴을 다룹니다.

AI / ML12분 읽기

5장: WebLLM과 브라우저에서의 LLM 추론

WebGPU를 활용한 브라우저 내 LLM 추론의 원리, WebLLM과 MLC LLM의 아키텍처, 실전 구현, 그리고 브라우저 AI의 가능성과 한계를 다룹니다.

AI / ML12분 읽기

4장: AWQ, GPTQ, 양자화 기법 비교

GPU 추론에 최적화된 AWQ와 GPTQ 양자화 기법의 원리, 차이점, 그리고 GGUF와의 비교를 통해 상황별 최적 양자화 전략을 제시합니다.

AI / ML10분 읽기

3장: GGUF와 llama.cpp 생태계

온디바이스 LLM 추론의 핵심인 GGUF 형식과 llama.cpp의 아키텍처, 설치와 사용법, 성능 최적화, 그리고 주요 프론트엔드 도구를 다룹니다.

AI / ML11분 읽기

2장: 모델 양자화 기초 — 정밀도, 형식, 트레이드오프

모델 양자화의 핵심 원리, 부동소수점과 정수 표현, 양자화 형식(대칭/비대칭, 채널/그룹), 품질-크기 트레이드오프를 체계적으로 다룹니다.

AI / ML9분 읽기

1장: 온디바이스 AI의 등장과 핵심 개념

온디바이스 AI의 필요성, 클라우드 추론 대비 장단점, 핵심 기술 스택, 그리고 현재 기술 수준과 한계를 조망합니다.

프로그래밍18분 읽기

12장: 실전 프로젝트 — 타입 안전 유틸리티 라이브러리 설계

TypeScript 5.x의 고급 타입 기법을 총동원하여 타입 안전 유틸리티 라이브러리를 처음부터 설계하고 구현하는 실전 프로젝트입니다.

웹 개발16분 읽기

11장: 실전 프로젝트 - React 19 풀스택 앱 구축

React 19의 핵심 기능을 모두 활용한 풀스택 북마크 앱을 구축합니다. Server Components, Server Actions, 새로운 훅, Suspense 패턴을 실전에 적용합니다.

프로그래밍14분 읽기

11장: 프로젝트 설정과 모노레포 타입 전략

TypeScript 프로젝트의 tsconfig.json 최적화, 프로젝트 참조, Isolated Declarations, 모노레포에서의 타입 전략을 실전 중심으로 다룹니다.

웹 개발14분 읽기

10장: React 18에서 19로 마이그레이션

React 18에서 19로 안전하게 업그레이드하는 단계별 가이드입니다. 제거된 API, 타입 변경, 동작 변화, 자동 마이그레이션 도구를 다룹니다.

프로그래밍17분 읽기

13장: Python 3.13 마이그레이션 실전 가이드

기존 프로젝트를 Python 3.13으로 업그레이드하는 실전 가이드입니다. 호환성 체크리스트, 단계별 전략, 주요 라이브러리 호환성, 도구 전환 계획을 다룹니다.

프로그래밍14분 읽기

10장: 타입 수준 프로그래밍 — 타입으로 로직 작성하기

TypeScript 타입 시스템을 프로그래밍 언어로 활용하는 고급 기법 — 산술 연산, 문자열 파서, 상태 머신 등을 타입만으로 구현하는 패턴을 다룹니다.

웹 개발15분 읽기

9장: 성능 최적화 전략과 베스트 프랙티스

React 19 애플리케이션의 성능을 극대화하는 전략을 다룹니다. 번들 최적화, 렌더링 성능, Core Web Vitals 개선, 측정 도구 활용법을 배웁���다.

프로그래밍13분 읽기

12장: AI 개발에서의 Python 활용

AI/ML 개발에서 Python이 차지하는 위치와 최신 트렌드를 다룹니다. PyTorch 생태계, LLM 개발 도구, 타입 안전한 AI 파이프라인, free-threaded Python의 AI 활용을 살펴봅니다.

프로그래밍14분 읽기

9장: NoInfer와 새로운 유틸리티 타입

TypeScript 5.4의 NoInfer 유틸리티 타입과 5.x에서 추가된 새로운 타입 도구들을 활용한 라이브러리 설계 패턴을 다룹니다.

웹 개발16분 읽기

8장: ref 개선, 메타데이터, 리소스 로딩 API

React 19의 DX 개선사항을 다룹니다. ref를 일반 props로 전달하는 방법, 컴포넌트 내 메타데이터 태그, 리소스 프리로딩 API를 살펴봅니다.

AI / ML20분 읽기

10장: 실전 프로젝트 - 프로덕션 AI 서비스 파이프라인 구축

모델 서빙부터 Kubernetes 배포, 오토스케일링, CI/CD까지 전체 AI 서비스 배포 파이프라인을 처음부터 끝까지 구축하는 종합 실전 프로젝트입니다.

프로그래밍13분 읽기

11장: typing 고급 기능 실전 활용

Python 3.12~3.13의 typing 모듈 고급 기능을 다룹니다. TypedDict, Protocol, override, dataclass_transform, TypeGuard, TypeIs 등 실전 타입 시스템을 안내합니다.

프로그래밍14분 읽기

8장: infer 키워드와 타입 추론 마스터

TypeScript infer 키워드의 고급 활용 패턴, infer extends 구문, 공변/반변 위치에서의 추론, 그리고 실전 타입 추출 패턴을 심층 분석합니다.

웹 개발15분 읽기

7장: React Compiler - 자동 최적화의 시대

React Compiler의 동작 원리, HIR 기반 분석, 자동 메모이제이션, 설치와 설정, ESLint 통합, 실전 적용 전략을 다룹니다.

AI / ML14분 읽기

9장: CI/CD 파이프라인 - GitHub Actions로 모델 배포 자동화

GitHub Actions를 활용하여 AI 서비스의 빌드, 테스트, 배포를 자동화하는 CI/CD 파이프라인을 구축하고, 모델 평가를 파이프라인에 통합합니다.

프로그래밍14분 읽기

10장: Ruff와 ty - 차세대 린터, 포매터, 타입 체커

Astral의 Ruff(린터/포매터)와 ty(타입 체커)를 다룹니다. 기존 도구 대체, 설정 방법, 규칙 커스터마이징, IDE 통합, 프로젝트 도입 전략을 안내합니다.

프로그래밍12분 읽기

7장: 템플릿 리터럴 타입으로 문자열 다루기

TypeScript 템플릿 리터럴 타입의 원리, 내장 문자열 조작 유틸리티, 패턴 매칭, 그리고 매핑 타입과의 결합을 통한 실전 패턴을 다룹니다.

웹 개발16분 읽기

6장: Suspense 고급 패턴과 스트리밍 SSR

React 19에서 강화된 Suspense의 고급 패턴, 스트리밍 SSR, 중첩 Suspense 전략, 배칭 동작, Partial Pre-rendering을 다룹니다.

AI / ML18분 읽기

8장: 비용 최적화 - 스팟 인스턴스, 모델 공유, 리소스 관리

GPU 기반 AI 서비스의 운영 비용을 체계적으로 절감하는 전략을 다루며, 스팟 인스턴스 활용, 모델 공유 아키텍처, 리소스 관리 기법을 소개합니다.

프로그래밍14분 읽기

9장: uv - 차세대 Python 패키지 매니저

Rust로 작성된 차세대 Python 패키지 매니저 uv를 다룹니다. 설치, 프로젝트 관리, 가상 환경, Python 버전 관리, 스크립트 실행까지 실전 워크플로우를 안내합니다.

프로그래밍12분 읽기

6장: 매핑 타입과 키 재매핑 고급 패턴

TypeScript 매핑 타입의 원리, 수정자 조작, 키 재매핑(as 절), 그리고 조건부 타입과의 결합 패턴을 실전 예제와 함께 다룹니다.

웹 개발16분 읽기

5장: 새로운 훅 - useActionState, useFormStatus, useOptimistic

React 19의 새로운 훅 3종을 심층 분석합니다. 폼 상태 관리, 제출 상태 추적, 낙관적 UI 업데이트의 실전 패턴을 다룹니다.

AI / ML17분 읽기

7장: 오토스케일링 - 트래픽 기반 GPU 워크로드 확장

Kubernetes에서 GPU 기반 AI 서비스의 자동 확장 전략을 구현하며, HPA 커스텀 메트릭과 Cluster Autoscaler를 활용한 효율적인 스케일링 방법을 다룹니다.

프로그래밍17분 읽기

8장: 실험적 JIT 컴파일러의 원리와 가능성

Python 3.13에 도입된 실험적 JIT 컴파일러를 분석합니다. copy-and-patch 기법의 원리, Tier 2 최적화 파이프라인, 빌드와 활성화 방법, 성능 벤치마크를 다룹니다.

프로그래밍13분 읽기

5장: 조건부 타입 심층 분석

TypeScript 조건부 타입의 원리, 분배적 조건부 타입, infer 키워드와의 조합, 그리고 실전 활용 패턴을 깊이 있게 다룹니다.

웹 개발15분 읽기

4장: use() API와 새로운 데이터 패턴

React 19의 use() API로 Promise와 Context를 조건부로 소비하는 방법, 서버-클라이언트 스트리밍 패턴, 기존 훅과의 차이를 다룹니다.

AI / ML18분 읽기

6장: Kubernetes 배포 실전 - GPU 노드와 모델 서빙 배포

Kubernetes에서 GPU 기반 AI 서비스를 배포하는 실전 과정을 다루며, 프로브 설정, 리소스 관리, 무중단 배포 전략을 구현합니다.

프로그래밍16분 읽기

7장: Free-threaded Python - GIL 제거의 시작

Python 3.13의 free-threaded 모드를 심층 분석합니다. GIL의 역사와 문제점, PEP 703의 설계, free-threaded 빌드의 설치와 실전 멀티스레드 성능을 다룹니다.

프로그래밍12분 읽기

4장: using 선언과 명시적 리소스 관리

TypeScript 5.2에서 도입된 using 선언과 Symbol.dispose를 활용한 명시적 리소스 관리 패턴을 실전 예제와 함께 심층 분석합니다.

웹 개발22분 읽기

3장: Server Actions로 서버-클라이언트 통합하기

Server Actions의 동작 원리, 폼 처리 패턴, 데이터 뮤테이션, 에러 핸들링, 보안 고려사항을 실전 코드와 함께 다룹니다.

AI / ML14분 읽기

5장: Kubernetes 기초 - AI 워크로드를 위한 클러스터 설계

Kubernetes의 핵심 개념을 AI 워크로드 관점에서 설명하고, GPU 노드 구성과 AI 서비스에 적합한 클러스터 아키텍처를 설계합니다.

프로그래밍16분 읽기

6장: CPython 성능 향상의 메커니즘

Python 3.12의 성능 향상 원리를 분석합니다. 특수화 적응 인터프리터, 컴프리헨션 인라인화, immortal objects, asyncio 최적화 등 CPython 내부를 다룹니다.

프로그래밍14분 읽기

3장: TC39 표준 데코레이터 완벽 이해

TypeScript 5.0에서 도입된 TC39 Stage 3 데코레이터의 원리, API 구조, 실전 패턴을 다루고, 기존 실험적 데코레이터와의 차이를 분석합니다.

웹 개발23분 읽기

2장: React Server Components 아키텍처 심층 분석

React Server Components의 동작 원리, 직렬화 프로토콜, 번들 전략, 합성 규칙을 심층적으로 분석합니다. 서버와 클라이언트의 경계를 이해합니다.

AI / ML15분 읽기

4장: 컨테이너화 - Docker로 AI 서비스 패키징

GPU 지원 Docker 컨테이너로 AI 서비스를 패키징하는 방법을 다루며, NVIDIA Container Toolkit 설정부터 멀티 스테이지 빌드까지 실전 기법을 소개합니다.

프로그래밍15분 읽기

5장: PyREPL - 새로운 대화형 인터프리터

Python 3.13에서 도입된 PyREPL의 구문 강조, 멀티라인 편집, 자동완성, 히스토리 관리 등 현대적 REPL 기능을 실전 예시와 함께 다룹니다.

프로그래밍15분 읽기

2장: const 타입 파라미터와 satisfies 연산자

TypeScript의 타입 추론을 정밀하게 제어하는 두 가지 핵심 도구인 const 타입 파라미터와 satisfies 연산자의 원리, 차이점, 실전 활용 패턴을 다룹니다.

웹 개발16분 읽기

1장: React 19의 등장과 새로운 패러다임

React 19가 가져온 근본적인 변화를 살펴봅니다. Actions, Server Components, 새로운 훅, React Compiler까지 React의 새로운 패러다임을 이해합니다.

AI / ML22분 읽기

3장: 모델 최적화 - 양자화, 배칭, KV 캐시 전략

LLM 추론 성능을 극대화하기 위한 양자화 기법, 배칭 전략, KV 캐시 튜닝 방법을 실전 예제와 함께 체계적으로 다룹니다.

프로그래밍13분 읽기

4장: 유연한 f-string과 개선된 에러 메시지

Python 3.12의 PEP 701 유연한 f-string 파싱과 3.12~3.13의 에러 메시지 개선을 다룹니다. 컬러 트레이스백, 제안 기반 에러 등 디버깅 경험 향상을 살펴봅니다.

프로그래밍14분 읽기

1장: TypeScript 5.x의 진화 — 5.0부터 5.8까지

TypeScript 5.x 시리즈의 주요 변경사항을 버전별로 정리하고, 타입 시스템의 진화 방향과 개발자 경험 개선을 조망합니다.

AI / ML19분 읽기

2장: 모델 서빙 프레임워크 - vLLM과 TGI 심층 비교

LLM 추론의 핵심 엔진인 vLLM과 Text Generation Inference를 아키텍처, 성능, 기능 측면에서 심층 비교하고 적합한 선택 기준을 제시합니다.

프로그래밍14분 읽기

3장: 구조적 패턴 매칭 실전 활용

Python의 match/case 문을 실전에서 활용하는 방법을 다룹니다. 시퀀스, 매핑, 클래스 패턴부터 가드 조건, 중첩 패턴까지 실무 코드로 익힙니다.

AI / ML22분 읽기

1장: AI 서비스 배포의 전체 그림과 핵심 과제

AI 모델을 프로덕션에 배포하기 위한 전체 파이프라인을 조망하고, 전통적 웹 서비스와 다른 AI 서비스만의 고유한 배포 과제를 분석합니다.

프로그래밍13분 읽기

2장: 타입 파라미터 새 문법 - PEP 695

Python 3.12에서 도입된 PEP 695 타입 파라미터 문법을 상세히 분석합니다. TypeVar의 간결한 선언, 제네릭 클래스와 함수의 새 문법, type 별칭을 다룹니다.

프로그래밍11분 읽기

1장: Python 3.12~3.13, 무엇이 달라졌는가

Python 3.12와 3.13에서 도입된 핵심 변화를 조망하고, 타입 시스템 개선부터 GIL 제거, 차세대 도구 생태계까지 시리즈의 전체 로드맵을 제시합니다.