모델의 품질은 학습 데이터의 품질에 달려 있다. 데이터셋 엔지니어링의 목표는 최고의 모델을 학습할 수 있는 데이터셋을 만드는 것이며, 이상적으로는 할당된 예산 내에서 이를 달성하는 것이다.

기존의 "모델 중심 AI"와 다른 "데이터 중심 AI"가 떠오르고 있다. 같은 모델이 주어지면 최고 성능을 낼 수 있는 데이터셋을 만드는 것이 데이터 중심 벤치마크의 관점이다.

데이터 큐레이션

데이터 큐레이션은 모델이 어떻게 학습하는지, 학습에 도움이 되는 자원이 무엇인지 이해해야 하는 분야다.

싱글 턴 데이터 — 모델이 개별 지시에 답하는 법을 가르침. (지시 → 응답) 형태.
멀티 턴 데이터 — 모델에게 작업을 해결하는 방법을 가르침. (지시 → 응답 → 후속 지시 → 응답 ...) 형태.

json

// 싱글 턴 예시
{"instruction": "Python에서 리스트를 정렬하는 방법은?",
 "response": "sorted() 함수 또는 list.sort() 메서드를 사용합니다."}
 
// 멀티 턴 예시
{"messages": [
  {"role": "user", "content": "Python에서 리스트를 정렬하는 방법은?"},
  {"role": "assistant", "content": "sorted() 함수를 사용할 수 있습니다."},
  {"role": "user", "content": "역순으로 정렬하려면?"},
  {"role": "assistant", "content": "reverse=True 파라미터를 추가하세요."}
]}

데이터 큐레이션의 세 가지 핵심 기준은 다음과 같다.

데이터 품질

고품질 데이터의 여섯 가지 특성이 있다.

특성	설명
관련성	작업과 관련이 있어야 한다
작업 요구사항 부합	요구사항에 부합해야 한다
일관성	주석자들 간에 점수나 의견이 일치해야 한다
올바른 형식	모델이 기대하는 형식에 따라야 한다
충분한 고유성	중복은 편향을 만들므로 고유해야 한다
규정 준수	내부/외부 정책을 지켜야 한다

데이터 커버리지

좋은 커버리지를 확보하려면 데이터 다양성을 갖고 있어야 한다. 데이터가 고품질이면서 다양할 때 성능이 월등히 좋다.

데이터 양

데이터 양에 따른 전략이 다르다.

데이터가 적다면 → 더 고급 모델에 PEFT 방법 사용. 큰 모델이 가진 기존 지식을 활용하므로 적은 데이터로도 효과적이다.
데이터가 많다면 → 더 작은 모델에 전체 파인튜닝 사용. 추론 비용이 저렴하고, 충분한 데이터가 있으므로 작은 모델도 높은 성능에 도달할 수 있다.

데이터 증강 및 합성

데이터 증강 — 실제 데이터에서 새로운 데이터를 만든다
데이터 합성 — 실제 데이터의 특성을 모방하는 합성 데이터를 생성한다

데이터 합성의 목적

데이터 양 늘리기
데이터 커버리지 늘리기
데이터 품질 향상
프라이버시 문제 해결
모델 증류

전통적인 데이터 생성 기법

절차적 생성(Procedural Generation) — 알고리즘으로 데이터를 생성
규칙 기반 — 미리 정해둔 규칙과 템플릿 사용
- 섭동(Perturbation) — 기존 데이터에 노이즈를 넣어 새로운 데이터를 만듦. 모델을 공격에 더 견고하게 만드는 데 사용
시뮬레이션 — 가상 환경에서 데이터를 수집 (CARLA, SimulationCity 등 자율주행 시뮬레이션)
- Sim2Real — 시뮬레이션에서 학습한 알고리즘을 실제 세계에 적용

AI 기반 데이터 합성

실제 API 호출 없이 예상 결과를 시뮬레이션하는 StableToolBench
역번역으로 품질을 확인하는 방식
순서를 바꿔 질문하며 응답 품질을 향상시키는 방식

지시 데이터 합성 방식도 있다.

주제와 세부 주제 등의 지시를 만들고 응답을 생성하는 방식
고품질의 글에서 지시를 역으로 만드는 방식
역지시 방식

데이터 검증

합성 데이터의 품질 관리를 위해 다음 휴리스틱으로 걸러낸다.

반복적인 예시
너무 길거나 너무 짧은 예시
같은 지시지만 다른 응답을 가진 예시
출력이 입력을 그대로 반복하는 예시

AI 생성 데이터의 한계

AI가 생성한 데이터가 사람이 생성한 데이터를 완전히 대체하기 어려운 네 가지 이유가 있다.

품질 관리 — 합성 데이터의 품질을 검증할 수 없다면 사용하기 어렵다. 평가가 필수다.
피상적 모방의 한계 — 모방을 통해 얻은 성능은 겉보기에만 좋아 보일 수 있으며, 학습 데이터 범위를 벗어난 과제에서는 일반화가 어렵다.
모델 성능 저하 가능성 — AI가 생성한 데이터로 반복 학습하면 모델 붕괴(Model Collapse)가 발생할 수 있다. 다만 실제 데이터와 합성 데이터를 섞으면 괜찮다는 연구 결과도 있다.
데이터 계보 불명확 — 참고하던 모델에 이슈가 발생하면 자신의 모델에도 영향이 간다.

모델 증류

모델 증류(Model Distillation)는 작은 모델(학생)이 큰 모델(교사)을 모방하도록 학습시키는 방법이다. 배포용으로 더 작은 모델을 만드는 것이 전통적인 목표다.

핵심 아이디어는 학생 모델이 단순히 정답(하드 라벨)만 학습하는 것이 아니라, 교사 모델의 출력 확률 분포(소프트 라벨)까지 학습한다는 점이다. "고양이 80%, 호랑이 15%, 개 5%"라는 교사의 출력 분포에는 "고양이와 호랑이가 비슷하다"는 암묵적 지식이 담겨 있다.

대표적인 사례로 DistilBERT가 있다. BERT 모델 크기를 40% 줄였지만 이해 능력은 97%를 유지하고 60% 더 빠르다. 때로는 증류 모델의 성능이 원본보다 더 좋기도 하다 (엔비디아의 네모트론-4).

데이터 처리

데이터 검사

우선 데이터의 기본 정보와 통계를 확인한다. 어디서 나왔는지, 어떻게 처리되었는지, 다른 용도로는 어떻게 사용됐는지를 파악한다.

데이터 중복 제거

중복 데이터는 분포를 왜곡하고 모델에 편향을 만든다. 특정 패턴이 과도하게 반복되면 모델이 해당 패턴에 과적합되어 일반화 능력이 떨어진다.

방법	특성	적합한 규모
쌍대 비교 (정확 일치, n-gram, 퍼지 매칭)	정확하지만 O(N^2)	소규모
해싱 (MinHash, Bloom Filter)	근사적이지만 빠름	대규모
차원 축소 (임베딩 클러스터링)	의미적 중복 탐지 가능	중대규모

Tip

대규모 데이터셋에서는 MinHash + LSH 조합이 실무 표준이다. 정확한 중복뿐 아니라 유사 중복(near-duplicate)도 효율적으로 탐지할 수 있다.

싱글 턴 데이터 — 모델이 개별 지시에 답하는 법을 가르침. (지시 → 응답) 형태.
멀티 턴 데이터 — 모델에게 작업을 해결하는 방법을 가르침. (지시 → 응답 → 후속 지시 → 응답 ...) 형태.

json

// 싱글 턴 예시
{"instruction": "Python에서 리스트를 정렬하는 방법은?",
 "response": "sorted() 함수 또는 list.sort() 메서드를 사용합니다."}
 
// 멀티 턴 예시
{"messages": [
  {"role": "user", "content": "Python에서 리스트를 정렬하는 방법은?"},
  {"role": "assistant", "content": "sorted() 함수를 사용할 수 있습니다."},
  {"role": "user", "content": "역순으로 정렬하려면?"},
  {"role": "assistant", "content": "reverse=True 파라미터를 추가하세요."}
]}

데이터 큐레이션의 세 가지 핵심 기준은 다음과 같다.

데이터 품질

고품질 데이터의 여섯 가지 특성이 있다.

특성	설명
관련성	작업과 관련이 있어야 한다
작업 요구사항 부합	요구사항에 부합해야 한다
일관성	주석자들 간에 점수나 의견이 일치해야 한다
올바른 형식	모델이 기대하는 형식에 따라야 한다
충분한 고유성	중복은 편향을 만들므로 고유해야 한다
규정 준수	내부/외부 정책을 지켜야 한다

데이터 커버리지

좋은 커버리지를 확보하려면 데이터 다양성을 갖고 있어야 한다. 데이터가 고품질이면서 다양할 때 성능이 월등히 좋다.

데이터 양

데이터 양에 따른 전략이 다르다.

데이터가 적다면 → 더 고급 모델에 PEFT 방법 사용. 큰 모델이 가진 기존 지식을 활용하므로 적은 데이터로도 효과적이다.
데이터가 많다면 → 더 작은 모델에 전체 파인튜닝 사용. 추론 비용이 저렴하고, 충분한 데이터가 있으므로 작은 모델도 높은 성능에 도달할 수 있다.

데이터 증강 및 합성

데이터 증강 — 실제 데이터에서 새로운 데이터를 만든다
데이터 합성 — 실제 데이터의 특성을 모방하는 합성 데이터를 생성한다

데이터 합성의 목적

데이터 양 늘리기
데이터 커버리지 늘리기
데이터 품질 향상
프라이버시 문제 해결
모델 증류

전통적인 데이터 생성 기법

절차적 생성(Procedural Generation) — 알고리즘으로 데이터를 생성
규칙 기반 — 미리 정해둔 규칙과 템플릿 사용
- 섭동(Perturbation) — 기존 데이터에 노이즈를 넣어 새로운 데이터를 만듦. 모델을 공격에 더 견고하게 만드는 데 사용
시뮬레이션 — 가상 환경에서 데이터를 수집 (CARLA, SimulationCity 등 자율주행 시뮬레이션)
- Sim2Real — 시뮬레이션에서 학습한 알고리즘을 실제 세계에 적용

AI 기반 데이터 합성

실제 API 호출 없이 예상 결과를 시뮬레이션하는 StableToolBench
역번역으로 품질을 확인하는 방식
순서를 바꿔 질문하며 응답 품질을 향상시키는 방식

지시 데이터 합성 방식도 있다.

주제와 세부 주제 등의 지시를 만들고 응답을 생성하는 방식
고품질의 글에서 지시를 역으로 만드는 방식
역지시 방식

데이터 검증

합성 데이터의 품질 관리를 위해 다음 휴리스틱으로 걸러낸다.

반복적인 예시
너무 길거나 너무 짧은 예시
같은 지시지만 다른 응답을 가진 예시
출력이 입력을 그대로 반복하는 예시

AI 생성 데이터의 한계

AI가 생성한 데이터가 사람이 생성한 데이터를 완전히 대체하기 어려운 네 가지 이유가 있다.

품질 관리 — 합성 데이터의 품질을 검증할 수 없다면 사용하기 어렵다. 평가가 필수다.
피상적 모방의 한계 — 모방을 통해 얻은 성능은 겉보기에만 좋아 보일 수 있으며, 학습 데이터 범위를 벗어난 과제에서는 일반화가 어렵다.
모델 성능 저하 가능성 — AI가 생성한 데이터로 반복 학습하면 모델 붕괴(Model Collapse)가 발생할 수 있다. 다만 실제 데이터와 합성 데이터를 섞으면 괜찮다는 연구 결과도 있다.
데이터 계보 불명확 — 참고하던 모델에 이슈가 발생하면 자신의 모델에도 영향이 간다.

방법	특성	적합한 규모
쌍대 비교 (정확 일치, n-gram, 퍼지 매칭)	정확하지만 O(N^2)	소규모
해싱 (MinHash, Bloom Filter)	근사적이지만 빠름	대규모
차원 축소 (임베딩 클러스터링)	의미적 중복 탐지 가능	중대규모

Tip

대규모 데이터셋에서는 MinHash + LSH 조합이 실무 표준이다. 정확한 중복뿐 아니라 유사 중복(near-duplicate)도 효율적으로 탐지할 수 있다.

8장: 데이터셋 엔지니어링

데이터 큐레이션

데이터 품질

데이터 커버리지

데이터 양

데이터 증강 및 합성

데이터 합성의 목적

전통적인 데이터 생성 기법

AI 기반 데이터 합성

데이터 검증

AI 생성 데이터의 한계

모델 증류

데이터 처리

데이터 검사

데이터 중복 제거

데이터 정리 및 필터링

데이터 형식 맞추기

정리

댓글

8장: 데이터셋 엔지니어링

데이터 큐레이션

데이터 품질

데이터 커버리지

데이터 양

데이터 증강 및 합성

데이터 합성의 목적

전통적인 데이터 생성 기법

AI 기반 데이터 합성

데이터 검증

AI 생성 데이터의 한계

모델 증류

데이터 처리

데이터 검사

데이터 중복 제거

데이터 정리 및 필터링

데이터 형식 맞추기

정리

댓글