//
ML 모델보다 파운데이션 모델이 평가하기 어려운 이유는 세 가지다.
벤치마크 대부분이 빠른 시일 내에 최고점에 도달하면서, 더 어려운 벤치마크가 계속 등장하고 있다.
평가 도구는 모델링, 학습, AI 오케스트레이션 도구에 비해 현저히 부족한 수준이다.
언어 모델의 기본 성능을 측정하는 핵심 지표들이다. 이 지표들은 서로 밀접하게 연결되어 있다.
토큰이 평균적으로 얼마나 많은 정보를 담고 있는지 측정한다. 엔트로피가 높으면 각 토큰이 더 많은 정보를 담고 있어 표현에 더 많은 비트가 필요하다. 반대로 낮으면 다음 토큰을 예측하기 더 쉽다.
H(P) = -sum(P(x) * log2(P(x)))
예를 들어, 동전 던지기의 엔트로피는 1비트(앞/뒤 두 가지)이고, 주사위의 엔트로피는 약 2.58비트(여섯 가지)다.
학습 데이터에 대한 모델의 교차 엔트로피는 두 가지에 따라 달라진다.
CE(P, Q) = H(P) + D_KL(P || Q)
모델이 학습 데이터를 완벽하게 학습하면, 교차 엔트로피는 학습 데이터의 엔트로피와 같아진다. 즉, KL 발산이 0이 된다. KL 발산은 두 확률 분포의 차이를 측정하는 지표이므로, 이것이 0이라는 것은 모델의 예측 분포가 실제 분포와 완벽히 일치한다는 뜻이다.
모델마다 토큰화 방식이 다르기 때문에 토큰당 비트 수로 모델을 비교할 수 없다. 따라서 문자당 비트(BPC) 또는 바이트당 비트(BPB) 단위를 사용한다. 예를 들어 BPB가 3.43이면 1바이트(8비트)를 3.43비트로 압축했음을 뜻한다.
BPC/BPB는 토큰화 방식에 독립적이기 때문에 서로 다른 토크나이저를 사용하는 모델 간 공정한 비교가 가능하다. 모델 A는 BPE를, 모델 B는 SentencePiece를 사용하더라도 BPB로 비교하면 동일 선상에서 평가할 수 있다.
엔트로피와 교차 엔트로피의 지수 함수다. 다음 토큰을 예측할 때의 불확실성을 측정하며, 불확실성이 높을수록 선택지가 많다는 뜻이다.
PPL = 2^(교차 엔트로피)
퍼플렉시티가 10이라면 모델이 다음 토큰을 예측할 때 평균적으로 10개의 선택지 사이에서 고민한다는 의미다.
퍼플렉시티의 특성은 다음과 같다.
퍼플렉시티는 사전 학습 모델의 언어 모델링 능력을 비교하는 데 유용하지만, 사후 학습된 챗봇 모델의 실질적 품질을 측정하기에는 부적합하다. RLHF로 학습된 모델은 "안전한" 응답을 선호하도록 분포가 변형되어 퍼플렉시티가 오히려 올라가기 때문이다.
시스템이 의도한 기능을 제대로 수행하는지 평가한다. 코드 생성 분야에서 널리 쓰이는 pass@k 지표가 대표적이다.
k를 높이면 pass@k도 올라가지만, 그만큼 추론 비용이 증가한다. 2장에서 다룬 "테스트 시점 연산(Best of N)"과 동일한 트레이드오프다.
기능적 정확성으로 자동평가할 수 없는 작업은 참조 데이터와 비교하여 평가한다.
임베딩은 벡터이며, 크기는 보통 100에서 10,000 사이다. 대부분의 모델은 입력을 벡터로 표현하는 임베딩 생성 단계를 포함한다. MTEB(Massive Text Embedding Benchmark)는 임베딩 품질을 측정하는 벤치마크의 대표적 예시다.
AI를 사용해 AI를 평가하는 접근방식을 AI 평가자(AI as a Judge) 또는 LLM 평가자(LLM as a Judge)라고 한다. 현재는 이 방식이 보편적이다.
세 가지 활용 방식이 있으며, 아래로 갈수록 판단이 쉬워진다.
| 방식 | 설명 | 난이도 |
|---|---|---|
| 독립 점수 매기기 | 응답 하나에 대해 1~5점 등 점수 부여 | 가장 어려움 |
| 참조 비교 | 참조 응답과 비교하여 같은지 평가 | 중간 |
| 쌍대 비교 | 두 응답 중 더 나은 것 선택 | 가장 쉬움 |
강력한 모델을 평가자로 둘 때의 문제점이 있다.
자기 평가 또는 자기 비평을 기본 검증 수단으로 두는 것이 유용하다.
응답의 품질이 주관적일 때는 개별 평가보다 비교 평가가 더 쉽다. 2021년 앤트로픽이 서로 다른 모델의 순위를 매기는 데 처음 사용했으며, LMSYS의 챗봇 아레나 순위표도 이 방식을 사용한다.
다수의 모델이 있을 때 하나의 모델을 기준으로 모든 모델과 비교를 수행하고, 승률로 순위를 매기기도 한다. 체스의 Elo 레이팅 시스템이 이 순위 매기기의 기반이다.
비교 평가의 과제로는 확장성 병목(N개 모델 간 비교 수가 O(N^2)로 증가), 표준화와 품질 관리의 부재 등이 있다.
평가에 대한 투자는 여전히 애플리케이션 개발에 대한 투자에 미치지 못하고 있다. 엔트로피, 교차 엔트로피, BPC, BPB, 퍼플렉시티 등의 모델링 지표부터, 기능적 정확성과 참조 데이터 유사도 측정 같은 정확한 평가 방법, 그리고 AI 평가자와 비교 평가까지 살펴보았다. 점수를 매기는 단일 평가보다 비교 평가가 더 쉽다는 점이 핵심이다.