요소	설명
데이터 프라이버시	데이터가 외부로 나가는지 여부
데이터 계보와 저작권	학습 데이터의 출처와 법적 문제
성능	특정 작업에서의 능력
기능	확장성, 함수 호출, 출력 구조, 가드레일
API 비용 vs 엔지니어링 비용	전체 비용 구조 비교
제어, 접근성, 투명성	모델에 대한 통제 수준
온디바이스 배포	엣지에서 실행 가능 여부

공개 벤치마크 탐색

여러 벤치마크에서 모델을 평가하는 데 도움이 되는 도구는 평가 하네스(Evaluation Harness)로, 약 400개 이상의 벤치마크를 지원한다.

주요 리더보드로는 허깅페이스 리더보드, 스탠퍼드의 HELM 리더보드 등이 있다.

데이터 오염 문제도 있다. 벤치마크 데이터가 학습에 포함되어 올바르지 않은 평가 결과가 나올 수 있으며, n-gram 중복이나 퍼플렉시티로 오염을 감지한다.

평가 파이프라인 설계

AI 애플리케이션의 성공 여부는 좋은 결과와 나쁜 결과를 구분하는 능력에 달려 있다.

1단계: 시스템의 모든 구성 요소 평가하기

복합적인 AI 시스템에서는 최종 출력뿐 아니라 각 구성 요소를 개별적으로 평가해야 한다.

턴 기반 평가 — 각 출력물의 품질을 평가. 개별 응답이 적절한지 확인.
작업 기반 평가 — 시스템이 작업을 완료했는지를 평가. 여러 턴에 걸친 전체 성과를 측정.

예를 들어, RAG 시스템이라면 검색기의 정밀도/재현율과 생성 모델의 응답 품질을 별도로 평가해야 한다. 검색이 잘못되면 아무리 좋은 생성 모델도 올바른 답을 내지 못한다.

2단계: 평가 가이드라인 만들기

평가 파이프라인에서 가장 중요한 단계다.

평가 기준 정의하기 — 관련성, 사실 일관성, 안정성, 유해성 등
예시와 함께 평가 기준표(Rubric) 만들기 — 1점은 어떤 상태, 5점은 어떤 상태인지 구체적으로 정의
평가 지표를 비즈니스 지표와 연결하기 — "사실 일관성 90% 이상"이 비즈니스 KPI에 어떤 영향을 주는지 연결

Tip

평가 기준표(Rubric)는 처음부터 완벽할 필요가 없다. 실제 출력을 보면서 반복적으로 개선하는 것이 핵심이다. 좋은 기준표의 특징은 서로 다른 평가자가 같은 출력에 대해 일관된 점수를 매기는 것이다.

3단계: 평가 방법과 데이터 정의하기

평가 방법 선택 (사람 평가, AI 평가자, 자동 지표 등)
평가 데이터 주석 달기
평가 파이프라인 자체를 평가하기 (메타 평가)
반복

국소적 사실 일관성 — 특정 영역(예: 회사 정책에 부합하는 고객 지원 챗봇)에서 중요
전역적 사실 일관성 — 일반적으로 받아들여지는 영역(예: 일반 챗봇)에서 중요

사실 관계를 평가하기 위한 정교한 기법으로 다음이 있다.

자체 검증 — 모델이 서로 일치하지 않는 여러 출력을 생성하는지 검증
지식 강화 검증 — 응답을 개별 문장으로 분리하여 검색 API로 확인 (구글 딥마인드의 "증강 사실성 평가기")

달성할 수 있는 최고 성능 파악
비용-성능 축에 모델을 배치하고 투자 대비 최고 성능을 내는 모델 선택

모델 자체 개발 vs 상용 모델 구매

모델 공개 수준에 따른 분류가 있다.

오픈 웨이트 — 데이터 없이 가중치만 공개된 모델 (대부분의 "오픈 소스" 모델)
오픈 모델 — 데이터와 함께 공개된 모델

비교 시 고려해야 할 요소들이 있다.

요소	설명
데이터 프라이버시	데이터가 외부로 나가는지 여부
데이터 계보와 저작권	학습 데이터의 출처와 법적 문제
성능	특정 작업에서의 능력
기능	확장성, 함수 호출, 출력 구조, 가드레일
API 비용 vs 엔지니어링 비용	전체 비용 구조 비교
제어, 접근성, 투명성	모델에 대한 통제 수준
온디바이스 배포	엣지에서 실행 가능 여부

턴 기반 평가 — 각 출력물의 품질을 평가. 개별 응답이 적절한지 확인.
작업 기반 평가 — 시스템이 작업을 완료했는지를 평가. 여러 턴에 걸친 전체 성과를 측정.

2단계: 평가 가이드라인 만들기

평가 파이프라인에서 가장 중요한 단계다.

평가 기준 정의하기 — 관련성, 사실 일관성, 안정성, 유해성 등
예시와 함께 평가 기준표(Rubric) 만들기 — 1점은 어떤 상태, 5점은 어떤 상태인지 구체적으로 정의
평가 지표를 비즈니스 지표와 연결하기 — "사실 일관성 90% 이상"이 비즈니스 KPI에 어떤 영향을 주는지 연결

Tip

3단계: 평가 방법과 데이터 정의하기

평가 방법 선택 (사람 평가, AI 평가자, 자동 지표 등)
평가 데이터 주석 달기
평가 파이프라인 자체를 평가하기 (메타 평가)
반복

4장: AI 시스템 평가하기

평가 기준

평가 주도 개발(Evaluation Driven Development)

도메인 특화 능력

생성 능력

지시 수행 능력

비용과 지연 시간

모델 선택

모델 선택 과정

모델 자체 개발 vs 상용 모델 구매

공개 벤치마크 탐색

평가 파이프라인 설계

1단계: 시스템의 모든 구성 요소 평가하기

2단계: 평가 가이드라인 만들기

3단계: 평가 방법과 데이터 정의하기

정리

댓글

4장: AI 시스템 평가하기

평가 기준

평가 주도 개발(Evaluation Driven Development)

도메인 특화 능력

생성 능력

지시 수행 능력

비용과 지연 시간

모델 선택

모델 선택 과정

모델 자체 개발 vs 상용 모델 구매

공개 벤치마크 탐색

평가 파이프라인 설계

1단계: 시스템의 모든 구성 요소 평가하기

2단계: 평가 가이드라인 만들기

3단계: 평가 방법과 데이터 정의하기

정리

댓글