본문으로 건너뛰기

Tech Projects Books About

Tech Projects Books About

Tech Projects Books About

© 2026 Kreath. All rights reserved.

홈 Tech Projects Books About

홈
테크
AI 평가 하네스와 벤치마킹 시리즈

AI 평가 하네스와 벤치마킹

300개 이상의 모델과 50개 이상의 벤치마크가 공존하는 시대, AI 평가 하네스가 왜 필요한지 그 정의와 핵심 구성요소, 평가 생태계 전체 지도를 살펴봅니다.

10편총 171분 읽기7,901자

1
1장: AI 평가의 현재와 평가 하네스의 역할
300개 이상의 모델과 50개 이상의 벤치마크가 공존하는 시대, AI 평가 하네스가 왜 필요한지 그 정의와 핵심 구성요소, 평가 생태계 전체 지도를 살펴봅니다.
2026년 3월 2일17분
2
2장: 평가 하네스 아키텍처와 핵심 개념
평가 하네스의 내부 구조를 해부합니다. 태스크 정의 시스템, 모델 백엔드 추상화, 실행 엔진의 배칭과 병렬화, 결과 집계와 리포팅까지 설계 패턴을 코드와 함께 분석합니다.
2026년 3월 4일18분
3
3장: lm-evaluation-harness 심층 분석
EleutherAI의 lm-evaluation-harness를 심층 분석합니다. 200개 이상의 태스크, 25개 이상의 모델 백엔드, HuggingFace 리더보드 백엔드로서의 역할, 설치부터 커스텀 태스크 작성까지 실전 가이드를 제공합니다.
2026년 3월 6일14분
4
4장: HELM - 종합적 모델 평가 프레임워크
Stanford CRFM의 HELM을 분석합니다. 7가지 메트릭 차원, 16가지 핵심 시나리오, HELM Lite와 MedHELM 변형, 실행 방법과 결과 분석까지 종합적 평가 접근법을 탐구합니다.
2026년 3월 8일16분
5
5장: Inspect AI - 에이전트 수준 평가
UK AISI의 Inspect AI를 분석합니다. 에이전트 벤치마크 GAIA, SWE-Bench, Cybench의 실행, 샌드박싱 환경, 태스크/솔버/스코러 아키텍처, 멀티에이전트 평가까지 다룹니다.
2026년 3월 10일17분
6
6장: 평가 도구 생태계 비교와 선택 기준
DeepEval, promptfoo, Evidently AI, W&B Weave, LangSmith, Ragas 등 실무 평가 도구를 비교합니다. 학술 vs 실무 평가의 차이점과 프레임워크 선택 의사결정 트리를 제시합니다.
2026년 3월 12일17분
7
7장: 커스텀 평가 하네스 설계와 구축
도메인 특화 평가 하네스를 처음부터 설계하고 구축합니다. 평가 태스크 설계, 메트릭 정의, LLM-as-Judge 구현, 인간 평가 통합, Golden Dataset 관리를 코드와 함께 실습합니다.
2026년 3월 14일19분
8
8장: 벤치마크 스위트 설계 원칙과 실전
벤치마크 오염 문제, 좋은 벤치마크의 조건, 다차원 평가 설계, 도메인별 벤치마크 구축, 데이터셋 버전 관리, 통계적 유의성 검증까지 벤치마크 스위트 설계의 전체를 다룹니다.
2026년 3월 16일18분
9
9장: 자동화된 모델 비교 파이프라인
ELO 레이팅과 리더보드 구현, A/B 테스트 자동화, 비용/지연시간/품질 트레이드오프 분석, 모델 선택 자동화, 비교 리포트 자동 생성까지 모델 비교 파이프라인을 구축합니다.
2026년 3월 18일17분
10
10장: CI/CD 통합과 품질 게이트 구축
GitHub Actions에 평가 파이프라인을 통합하고, 품질 게이트를 설계하고, 회귀 테스트를 자동화합니다. 프롬��트 변경 감지, 드리프트 모니터링까지 종합 평가 CI/CD 파이프라인을 구축합니다.
2026년 3월 20일18분