//
모델의 품질은 학습 데이터의 품질에 달려 있다. 데이터셋 엔지니어링의 목표는 최고의 모델을 학습할 수 있는 데이터셋을 만드는 것이며, 이상적으로는 할당된 예산 내에서 이를 달성하는 것이다.
기존의 "모델 중심 AI"와 다른 "데이터 중심 AI"가 떠오르고 있다. 같은 모델이 주어지면 최고 성능을 낼 수 있는 데이터셋을 만드는 것이 데이터 중심 벤치마크의 관점이다.
데이터 큐레이션은 모델이 어떻게 학습하는지, 학습에 도움이 되는 자원이 무엇인지 이해해야 하는 분야다.
(지시 → 응답) 형태.(지시 → 응답 → 후속 지시 → 응답 ...) 형태.// 싱글 턴 예시
{"instruction": "Python에서 리스트를 정렬하는 방법은?",
"response": "sorted() 함수 또는 list.sort() 메서드를 사용합니다."}
// 멀티 턴 예시
{"messages": [
{"role": "user", "content": "Python에서 리스트를 정렬하는 방법은?"},
{"role": "assistant", "content": "sorted() 함수를 사용할 수 있습니다."},
{"role": "user", "content": "역순으로 정렬하려면?"},
{"role": "assistant", "content": "reverse=True 파라미터를 추가하세요."}
]}데이터 큐레이션의 세 가지 핵심 기준은 다음과 같다.
고품질 데이터의 여섯 가지 특성이 있다.
| 특성 | 설명 |
|---|---|
| 관련성 | 작업과 관련이 있어야 한다 |
| 작업 요구사항 부합 | 요구사항에 부합해야 한다 |
| 일관성 | 주석자들 간에 점수나 의견이 일치해야 한다 |
| 올바른 형식 | 모델이 기대하는 형식에 따라야 한다 |
| 충분한 고유성 | 중복은 편향을 만들므로 고유해야 한다 |
| 규정 준수 | 내부/외부 정책을 지켜야 한다 |
좋은 커버리지를 확보하려면 데이터 다양성을 갖고 있어야 한다. 데이터가 고품질이면서 다양할 때 성능이 월등히 좋다.
데이터 양에 따른 전략이 다르다.
지시 데이터 합성 방식도 있다.
합성 데이터의 품질 관리를 위해 다음 휴리스틱으로 걸러낸다.
AI가 생성한 데이터가 사람이 생성한 데이터를 완전히 대체하기 어려운 네 가지 이유가 있다.
모델 증류(Model Distillation)는 작은 모델(학생)이 큰 모델(교사)을 모방하도록 학습시키는 방법이다. 배포용으로 더 작은 모델을 만드는 것이 전통적인 목표다.
핵심 아이디어는 학생 모델이 단순히 정답(하드 라벨)만 학습하는 것이 아니라, 교사 모델의 출력 확률 분포(소프트 라벨)까지 학습한다는 점이다. "고양이 80%, 호랑이 15%, 개 5%"라는 교사의 출력 분포에는 "고양이와 호랑이가 비슷하다"는 암묵적 지식이 담겨 있다.
대표적인 사례로 DistilBERT가 있다. BERT 모델 크기를 40% 줄였지만 이해 능력은 97%를 유지하고 60% 더 빠르다. 때로는 증류 모델의 성능이 원본보다 더 좋기도 하다 (엔비디아의 네모트론-4).
우선 데이터의 기본 정보와 통계를 확인한다. 어디서 나왔는지, 어떻게 처리되었는지, 다른 용도로는 어떻게 사용됐는지를 파악한다.
중복 데이터는 분포를 왜곡하고 모델에 편향을 만든다. 특정 패턴이 과도하게 반복되면 모델이 해당 패턴에 과적합되어 일반화 능력이 떨어진다.
| 방법 | 특성 | 적합한 규모 |
|---|---|---|
| 쌍대 비교 (정확 일치, n-gram, 퍼지 매칭) | 정확하지만 O(N^2) | 소규모 |
| 해싱 (MinHash, Bloom Filter) | 근사적이지만 빠름 | 대규모 |
| 차원 축소 (임베딩 클러스터링) | 의미적 중복 탐지 가능 | 중대규모 |
대규모 데이터셋에서는 MinHash + LSH 조합이 실무 표준이다. 정확한 중복뿐 아니라 유사 중복(near-duplicate)도 효율적으로 탐지할 수 있다.
불필요한 마크다운이나 HTML 태그, PII, 민감 데이터, 저작권 데이터, 유해 데이터 등을 제거한다.
모델이 기대하는 형식에 맞추는 작업이다.
학습 데이터를 만드는 실제 과정은 복잡하지만, 데이터셋을 만드는 원칙은 놀라울 정도로 단순하다. 데이터 품질, 데이터 커버리지, 데이터 양이라는 세 가지 핵심 기준을 따르면 된다. AI를 이용한 데이터 생성도 유용하지만, 모델 붕괴에는 주의해야 한다.