본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
← 전체 글

AI 서비스 배포

10편총 179분 읽기8,561자
  1. 1

    1장: AI 서비스 배포의 전체 그림과 핵심 과제

    AI 모델을 프로덕션에 배포하기 위한 전체 파이프라인을 조망하고, 전통적 웹 서비스와 다른 AI 서비스만의 고유한 배포 과제를 분석합니다.

    2026년 1월 18일·22분 읽기
  2. 2

    2장: 모델 서빙 프레임워크 - vLLM과 TGI 심층 비교

    LLM 추론의 핵심 엔진인 vLLM과 Text Generation Inference를 아키텍처, 성능, 기능 측면에서 심층 비교하고 적합한 선택 기준을 제시합니다.

    2026년 1월 20일·19분 읽기
  3. 3

    3장: 모델 최적화 - 양자화, 배칭, KV 캐시 전략

    LLM 추론 성능을 극대화하기 위한 양자화 기법, 배칭 전략, KV 캐시 튜닝 방법을 실전 예제와 함께 체계적으로 다룹니다.

    2026년 1월 22일·22분 읽기
  4. 4

    4장: 컨테이너화 - Docker로 AI 서비스 패키징

    GPU 지원 Docker 컨테이너로 AI 서비스를 패키징하는 방법을 다루며, NVIDIA Container Toolkit 설정부터 멀티 스테이지 빌드까지 실전 기법을 소개합니다.

    2026년 1월 24일·15분 읽기
  5. 5

    5장: Kubernetes 기초 - AI 워크로드를 위한 클러스터 설계

    Kubernetes의 핵심 개념을 AI 워크로드 관점에서 설명하고, GPU 노드 구성과 AI 서비스에 적합한 클러스터 아키텍처를 설계합니다.

    2026년 1월 26일·14분 읽기
  6. 6

    6장: Kubernetes 배포 실전 - GPU 노드와 모델 서빙 배포

    Kubernetes에서 GPU 기반 AI 서비스를 배포하는 실전 과정을 다루며, 프로브 설정, 리소스 관리, 무중단 배포 전략을 구현합니다.

    2026년 1월 28일·18분 읽기
  7. 7

    7장: 오토스케일링 - 트래픽 기반 GPU 워크로드 확장

    Kubernetes에서 GPU 기반 AI 서비스의 자동 확장 전략을 구현하며, HPA 커스텀 메트릭과 Cluster Autoscaler를 활용한 효율적인 스케일링 방법을 다룹니다.

    2026년 1월 30일·17분 읽기
  8. 8

    8장: 비용 최적화 - 스팟 인스턴스, 모델 공유, 리소스 관리

    GPU 기반 AI 서비스의 운영 비용을 체계적으로 절감하는 전략을 다루며, 스팟 인스턴스 활용, 모델 공유 아키텍처, 리소스 관리 기법을 소개합니다.

    2026년 2월 1일·18분 읽기
  9. 9

    9장: CI/CD 파이프라인 - GitHub Actions로 모델 배포 자동화

    GitHub Actions를 활용하여 AI 서비스의 빌드, 테스트, 배포를 자동화하는 CI/CD 파이프라인을 구축하고, 모델 평가를 파이프라인에 통합합니다.

    2026년 2월 3일·14분 읽기
  10. 10

    10장: 실전 프로젝트 - 프로덕션 AI 서비스 파이프라인 구축

    모델 서빙부터 Kubernetes 배포, 오토스케일링, CI/CD까지 전체 AI 서비스 배포 파이프라인을 처음부터 끝까지 구축하는 종합 실전 프로젝트입니다.

    2026년 2월 5일·20분 읽기