본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
← 전체 글

LLM 평가 프레임워크

10편총 175분 읽기10,380자
  1. 1

    1장: LLM 평가의 필요성과 전체 프레임워크

    LLM 애플리케이션을 프로덕션에서 안정적으로 운영하기 위해 평가와 모니터링이 왜 필수인지, 전체 프레임워크를 체계적으로 소개합니다.

    2026년 1월 15일·17분 읽기
  2. 2

    2장: 평가 메트릭 설계 - 정확성, 관련성, 안전성

    LLM 애플리케이션의 품질을 수치화하는 핵심 메트릭을 설계하고, 작업 유형별로 적절한 메트릭을 선택하는 방법을 다룹니다.

    2026년 1월 17일·19분 읽기
  3. 3

    3장: 자동 평가 파이프라인 구축

    코드 기반 메트릭과 벤치마크 자동화로 LLM 애플리케이션의 품질을 체계적으로 측정하는 평가 파이프라인을 구축합니다.

    2026년 1월 19일·20분 읽기
  4. 4

    4장: LLM-as-Judge - LLM으로 LLM 평가하기

    LLM을 평가자로 활용하는 LLM-as-Judge 기법의 원리, 프롬프트 설계, 편향 완화 전략을 체계적으로 다룹니다.

    2026년 1월 21일·17분 읽기
  5. 5

    5장: 인간 평가와 어노테이션 설계

    LLM 평가에서 인간 평가의 역할, 어노테이션 가이드라인 설계, 평가자 간 일치도 관리 방법을 체계적으로 다룹니다.

    2026년 1월 23일·20분 읽기
  6. 6

    6장: A/B 테스트와 온라인 실험

    LLM 애플리케이션에서 A/B 테스트를 설계하고 실행하는 방법, 통계적 유의성 판단, 실험 결과 해석을 다룹니다.

    2026년 1월 25일·15분 읽기
  7. 7

    7장: 프로덕션 로깅과 관찰 가능성

    LLM 애플리케이션의 프로덕션 환경에서 구조화된 로깅, 분산 트레이싱, 관찰 가능성을 구축하는 방법을 다룹니다.

    2026년 1월 27일·14분 읽기
  8. 8

    8장: 드리프트 감지와 품질 모니터링

    LLM 애플리케이션의 입력 분포 변화, 모델 성능 저하, 데이터 드리프트를 감지하고 대응하는 방법을 다룹니다.

    2026년 1월 29일·16분 읽기
  9. 9

    9장: CI/CD에 평가 파이프라인 통합

    LLM 평가를 CI/CD 파이프라인에 통합하여, 프롬프트 변경과 모델 교체 시 자동으로 품질을 검증하는 체계를 구축합니다.

    2026년 1월 31일·15분 읽기
  10. 10

    10장: 실전 프로젝트 - 종합 평가 모니터링 시스템 구축

    지금까지 다룬 평가 메트릭, LLM-as-Judge, 모니터링, CI/CD를 통합하여 프로덕션 수준의 종합 평가 시스템을 구축합니다.

    2026년 2월 2일·22분 읽기