파운데이션 모델 평가의 어려움

ML 모델보다 파운데이션 모델이 평가하기 어려운 이유는 세 가지다.

모델이 똑똑해질수록 평가가 더 어렵다. 정교한 평가에는 훨씬 더 많은 시간이 소요된다.
개방형 특성으로 인해 정답 기반 평가가 유효하지 않다. 여러 개의 정답이 있을 수 있기 때문이다.
대부분의 모델이 블랙박스다. 모델 세부 사항이 비공개이거나 이해할 전문지식이 부족하면, 결국 출력 결과로만 평가해야 한다.

벤치마크 대부분이 빠른 시일 내에 최고점에 도달하면서, 더 어려운 벤치마크가 계속 등장하고 있다.

GLUE → SuperGLUE
NaturalInstructions → Super-NaturalInstructions
MMLU → MMLU-Pro

평가 도구는 모델링, 학습, AI 오케스트레이션 도구에 비해 현저히 부족한 수준이다.

언어 모델링 지표

언어 모델의 기본 성능을 측정하는 핵심 지표들이다. 이 지표들은 서로 밀접하게 연결되어 있다.

엔트로피

토큰이 평균적으로 얼마나 많은 정보를 담고 있는지 측정한다. 엔트로피가 높으면 각 토큰이 더 많은 정보를 담고 있어 표현에 더 많은 비트가 필요하다. 반대로 낮으면 다음 토큰을 예측하기 더 쉽다.

H(P) = -sum(P(x) * log2(P(x)))

예를 들어, 동전 던지기의 엔트로피는 1비트(앞/뒤 두 가지)이고, 주사위의 엔트로피는 약 2.58비트(여섯 가지)다.

교차 엔트로피

학습 데이터에 대한 모델의 교차 엔트로피는 두 가지에 따라 달라진다.

학습 데이터의 예측 가능성(엔트로피)
모델이 파악한 분포와 실제 분포의 차이

CE(P, Q) = H(P) + D_KL(P || Q)

모델이 학습 데이터를 완벽하게 학습하면, 교차 엔트로피는 학습 데이터의 엔트로피와 같아진다. 즉, KL 발산이 0이 된다. KL 발산은 두 확률 분포의 차이를 측정하는 지표이므로, 이것이 0이라는 것은 모델의 예측 분포가 실제 분포와 완벽히 일치한다는 뜻이다.

BPC와 BPB

모델마다 토큰화 방식이 다르기 때문에 토큰당 비트 수로 모델을 비교할 수 없다. 따라서 문자당 비트(BPC) 또는 바이트당 비트(BPB) 단위를 사용한다. 예를 들어 BPB가 3.43이면 1바이트(8비트)를 3.43비트로 압축했음을 뜻한다.

Tip

BPC/BPB는 토큰화 방식에 독립적이기 때문에 서로 다른 토크나이저를 사용하는 모델 간 공정한 비교가 가능하다. 모델 A는 BPE를, 모델 B는 SentencePiece를 사용하더라도 BPB로 비교하면 동일 선상에서 평가할 수 있다.

퍼플렉시티(PPL)

엔트로피와 교차 엔트로피의 지수 함수다. 다음 토큰을 예측할 때의 불확실성을 측정하며, 불확실성이 높을수록 선택지가 많다는 뜻이다.

PPL = 2^(교차 엔트로피)

퍼플렉시티가 10이라면 모델이 다음 토큰을 예측할 때 평균적으로 10개의 선택지 사이에서 고민한다는 의미다.

퍼플렉시티의 특성은 다음과 같다.

정확도가 높을수록 값이 낮아진다 (교차 엔트로피, BPC, BPB도 동일)
구조화된 데이터일수록 낮다 (코드 > 뉴스 기사 > 소설)
어휘 크기가 클수록 높다 (선택지가 많으므로)
컨텍스트 길이가 길수록 낮다 (참고할 정보가 많으므로)
SFT, RLHF 등 사후 학습된 모델에서는 값이 높아지는 경향이 있어 적절치 않을 수 있다

Warning

퍼플렉시티는 사전 학습 모델의 언어 모델링 능력을 비교하는 데 유용하지만, 사후 학습된 챗봇 모델의 실질적 품질을 측정하기에는 부적합하다. RLHF로 학습된 모델은 "안전한" 응답을 선호하도록 분포가 변형되어 퍼플렉시티가 오히려 올라가기 때문이다.

정확한 평가

기능적 정확성

시스템이 의도한 기능을 제대로 수행하는지 평가한다. 코드 생성 분야에서 널리 쓰이는 pass@k 지표가 대표적이다.

pass@k — 문제당 k개의 코드 샘플을 생성했을 때, 하나라도 테스트를 통과하면 성공으로 간주
예: 10문제가 있고 k=3일 때 5개를 해결했다면 pass@3 = 50%

k를 높이면 pass@k도 올라가지만, 그만큼 추론 비용이 증가한다. 2장에서 다룬 "테스트 시점 연산(Best of N)"과 동일한 트레이드오프다.

참조 데이터 유사도 측정

기능적 정확성으로 자동평가할 수 없는 작업은 참조 데이터와 비교하여 평가한다.

정확한 일치 — 생성된 응답이 참조 응답과 일치하는지 체크. 오답을 유발하는 경우가 더 많다.
어휘적 유사도 — 근사 문자열 매칭(퍼지 매칭)은 편집 거리를 세는 방식, n-gram 유사도는 n-gram의 겹침으로 측정. 두 텍스트가 비슷한지만 체크하며 의미는 판단하지 않는다.
의미적 유사도 — 의미가 얼마나 비슷한지를 계산한다. 임베딩 알고리즘의 품질에 달려 있으며, BERTScore, MoverScore 등의 지표가 있다.

임베딩

임베딩은 벡터이며, 크기는 보통 100에서 10,000 사이다. 대부분의 모델은 입력을 벡터로 표현하는 임베딩 생성 단계를 포함한다. MTEB(Massive Text Embedding Benchmark)는 임베딩 품질을 측정하는 벤치마크의 대표적 예시다.

AI 평가자

AI를 사용해 AI를 평가하는 접근방식을 AI 평가자(AI as a Judge) 또는 LLM 평가자(LLM as a Judge)라고 한다. 현재는 이 방식이 보편적이다.

AI 평가자 사용법

세 가지 활용 방식이 있으며, 아래로 갈수록 판단이 쉬워진다.

방식	설명	난이도
독립 점수 매기기	응답 하나에 대해 1~5점 등 점수 부여	가장 어려움
참조 비교	참조 응답과 비교하여 같은지 평가	중간
쌍대 비교	두 응답 중 더 나은 것 선택	가장 쉬움

AI 평가자의 한계

비일관성 — 확률적이므로 결과가 매번 다를 수 있고, 일관성을 높이려면 비용이 증가한다.
평가 기준의 모호성 — 평가 기준이 계속 변화하면서 이전 평가 결과가 무효화되기도 한다.
비용과 지연 시간 증가 — 응답을 생성하고 평가까지 하면 비용이 두 배, 시간도 그만큼 증가한다.
편향 — 자기 편향(GPT-4는 자신의 응답에 10%, Claude는 25% 더 높은 점수), 장황성 편향(더 긴 응답을 선호)이 있다.

평가자 모델의 딜레마

강력한 모델을 평가자로 둘 때의 문제점이 있다.

가장 강력한 모델을 평가할 평가자를 찾을 수 없다
어떤 모델이 가장 강력한지 판단하기 위한 별도의 평가 방법이 필요하다
약한 모델이 강한 모델을 평가하는 문제는 아직 해결되지 않았다

자기 평가 또는 자기 비평을 기본 검증 수단으로 두는 것이 유용하다.

비교 평가와 모델 순위

응답의 품질이 주관적일 때는 개별 평가보다 비교 평가가 더 쉽다. 2021년 앤트로픽이 서로 다른 모델의 순위를 매기는 데 처음 사용했으며, LMSYS의 챗봇 아레나 순위표도 이 방식을 사용한다.

다수의 모델이 있을 때 하나의 모델을 기준으로 모든 모델과 비교를 수행하고, 승률로 순위를 매기기도 한다. 체스의 Elo 레이팅 시스템이 이 순위 매기기의 기반이다.

비교 평가의 과제로는 확장성 병목(N개 모델 간 비교 수가 O(N^2)로 증가), 표준화와 품질 관리의 부재 등이 있다.

정리

평가에 대한 투자는 여전히 애플리케이션 개발에 대한 투자에 미치지 못하고 있다. 엔트로피, 교차 엔트로피, BPC, BPB, 퍼플렉시티 등의 모델링 지표부터, 기능적 정확성과 참조 데이터 유사도 측정 같은 정확한 평가 방법, 그리고 AI 평가자와 비교 평가까지 살펴보았다. 점수를 매기는 단일 평가보다 비교 평가가 더 쉽다는 점이 핵심이다.

파운데이션 모델 평가의 어려움

ML 모델보다 파운데이션 모델이 평가하기 어려운 이유는 세 가지다.

모델이 똑똑해질수록 평가가 더 어렵다. 정교한 평가에는 훨씬 더 많은 시간이 소요된다.
개방형 특성으로 인해 정답 기반 평가가 유효하지 않다. 여러 개의 정답이 있을 수 있기 때문이다.
대부분의 모델이 블랙박스다. 모델 세부 사항이 비공개이거나 이해할 전문지식이 부족하면, 결국 출력 결과로만 평가해야 한다.

벤치마크 대부분이 빠른 시일 내에 최고점에 도달하면서, 더 어려운 벤치마크가 계속 등장하고 있다.

GLUE → SuperGLUE
NaturalInstructions → Super-NaturalInstructions
MMLU → MMLU-Pro

평가 도구는 모델링, 학습, AI 오케스트레이션 도구에 비해 현저히 부족한 수준이다.

언어 모델링 지표

언어 모델의 기본 성능을 측정하는 핵심 지표들이다. 이 지표들은 서로 밀접하게 연결되어 있다.

엔트로피

H(P) = -sum(P(x) * log2(P(x)))

예를 들어, 동전 던지기의 엔트로피는 1비트(앞/뒤 두 가지)이고, 주사위의 엔트로피는 약 2.58비트(여섯 가지)다.

교차 엔트로피

학습 데이터에 대한 모델의 교차 엔트로피는 두 가지에 따라 달라진다.

학습 데이터의 예측 가능성(엔트로피)
모델이 파악한 분포와 실제 분포의 차이

CE(P, Q) = H(P) + D_KL(P || Q)

BPC와 BPB

Tip

퍼플렉시티(PPL)

엔트로피와 교차 엔트로피의 지수 함수다. 다음 토큰을 예측할 때의 불확실성을 측정하며, 불확실성이 높을수록 선택지가 많다는 뜻이다.

PPL = 2^(교차 엔트로피)

퍼플렉시티가 10이라면 모델이 다음 토큰을 예측할 때 평균적으로 10개의 선택지 사이에서 고민한다는 의미다.

퍼플렉시티의 특성은 다음과 같다.

정확도가 높을수록 값이 낮아진다 (교차 엔트로피, BPC, BPB도 동일)
구조화된 데이터일수록 낮다 (코드 > 뉴스 기사 > 소설)
어휘 크기가 클수록 높다 (선택지가 많으므로)
컨텍스트 길이가 길수록 낮다 (참고할 정보가 많으므로)
SFT, RLHF 등 사후 학습된 모델에서는 값이 높아지는 경향이 있어 적절치 않을 수 있다

Warning

정확한 평가

기능적 정확성

시스템이 의도한 기능을 제대로 수행하는지 평가한다. 코드 생성 분야에서 널리 쓰이는 pass@k 지표가 대표적이다.

pass@k — 문제당 k개의 코드 샘플을 생성했을 때, 하나라도 테스트를 통과하면 성공으로 간주
예: 10문제가 있고 k=3일 때 5개를 해결했다면 pass@3 = 50%

k를 높이면 pass@k도 올라가지만, 그만큼 추론 비용이 증가한다. 2장에서 다룬 "테스트 시점 연산(Best of N)"과 동일한 트레이드오프다.

참조 데이터 유사도 측정

기능적 정확성으로 자동평가할 수 없는 작업은 참조 데이터와 비교하여 평가한다.

정확한 일치 — 생성된 응답이 참조 응답과 일치하는지 체크. 오답을 유발하는 경우가 더 많다.
어휘적 유사도 — 근사 문자열 매칭(퍼지 매칭)은 편집 거리를 세는 방식, n-gram 유사도는 n-gram의 겹침으로 측정. 두 텍스트가 비슷한지만 체크하며 의미는 판단하지 않는다.
의미적 유사도 — 의미가 얼마나 비슷한지를 계산한다. 임베딩 알고리즘의 품질에 달려 있으며, BERTScore, MoverScore 등의 지표가 있다.

방식	설명	난이도
독립 점수 매기기	응답 하나에 대해 1~5점 등 점수 부여	가장 어려움
참조 비교	참조 응답과 비교하여 같은지 평가	중간
쌍대 비교	두 응답 중 더 나은 것 선택	가장 쉬움

AI 평가자의 한계

비일관성 — 확률적이므로 결과가 매번 다를 수 있고, 일관성을 높이려면 비용이 증가한다.
평가 기준의 모호성 — 평가 기준이 계속 변화하면서 이전 평가 결과가 무효화되기도 한다.
비용과 지연 시간 증가 — 응답을 생성하고 평가까지 하면 비용이 두 배, 시간도 그만큼 증가한다.
편향 — 자기 편향(GPT-4는 자신의 응답에 10%, Claude는 25% 더 높은 점수), 장황성 편향(더 긴 응답을 선호)이 있다.

평가자 모델의 딜레마

강력한 모델을 평가자로 둘 때의 문제점이 있다.

가장 강력한 모델을 평가할 평가자를 찾을 수 없다
어떤 모델이 가장 강력한지 판단하기 위한 별도의 평가 방법이 필요하다
약한 모델이 강한 모델을 평가하는 문제는 아직 해결되지 않았다

자기 평가 또는 자기 비평을 기본 검증 수단으로 두는 것이 유용하다.

비교 평가와 모델 순위

비교 평가의 과제로는 확장성 병목(N개 모델 간 비교 수가 O(N^2)로 증가), 표준화와 품질 관리의 부재 등이 있다.

3장: 평가 방법론

파운데이션 모델 평가의 어려움

언어 모델링 지표

엔트로피

교차 엔트로피

BPC와 BPB

퍼플렉시티(PPL)

정확한 평가

기능적 정확성

참조 데이터 유사도 측정

임베딩

AI 평가자

AI 평가자 사용법

AI 평가자의 한계

평가자 모델의 딜레마

비교 평가와 모델 순위

정리

댓글

3장: 평가 방법론

파운데이션 모델 평가의 어려움

언어 모델링 지표

엔트로피

교차 엔트로피

BPC와 BPB

퍼플렉시티(PPL)

정확한 평가

기능적 정확성

참조 데이터 유사도 측정

임베딩

AI 평가자

AI 평가자 사용법

AI 평가자의 한계

평가자 모델의 딜레마

비교 평가와 모델 순위

정리

댓글