본문으로 건너뛰기

Tech Projects Books About

Tech Projects Books About

Tech Projects Books About

© 2026 Kreath. All rights reserved.

홈 Tech Projects Books About

홈
테크
합성 데이터 엔지니어링 시리즈

합성 데이터 엔지니어링

합성 데이터의 정의와 유형, 2026년 합성 데이터가 필수가 된 배경, 데이터 순환 문제와 생태계 전체 지도를 살펴봅니다.

10편총 206분 읽기9,274자

1
1장: 합성 데이터의 부상과 엔지니어링
합성 데이터의 정의와 유형, 2026년 합성 데이터가 필수가 된 배경, 데이터 순환 문제와 생태계 전체 지도를 살펴봅니다.
2026년 3월 21일19분
2
2장: LLM 기반 데이터 생성의 원리와 기법
프롬프트 기반 생성, 디스틸레이션, Evol-Instruct, Self-Instruct 등 LLM을 활용한 합성 데이터 생성 기법의 원리와 실전 적용법을 다룹니다.
2026년 3월 23일21분
3
3장: 텍스트 데이터 합성 실전
지시-응답 쌍, 대화 데이터, 분류/NER 학습 데이터, 다국어 데이터, 코드 데이터의 합성 파이프라인을 실전 코드와 함께 구축합니다.
2026년 3월 25일21분
4
4장: 구조화된 데이터와 멀티모달 합성
테이블/CSV 합성, JSON/SQL 데이터 생성, 이미지-텍스트 페어 생성, NVIDIA Nemotron 등 멀티모달 합성 데이터 생성 기법을 다룹니다.
2026년 3월 27일19분
5
5장: 데이터 품질 검증과 필터링 파이프라인
충실도, 유용성, 프라이버시 3계층 품질 평가 프레임워크와 LLM-as-Judge, 자동 필터링 파이프라인, 중복 제거 전략을 다룹니다.
2026년 3월 29일18분
6
6장: 데이터 증강 기법
전통적 텍스트 증강부터 LLM 기반 증강, 어려운 예제 생성, 엣지 케이스 증강, 증강 비율 최적화까지 실전 데이터 증강 기법을 다룹니다.
2026년 3월 31일21분
7
7장: 프라이버시 보존 합성 데이터
차등 프라이버시, PII 마스킹, 멤버십 추론 공격 방어, 유사도 필터, 규제 대응 전략과 프라이버시-유용성 트레이드오프를 다룹니다.
2026년 4월 2일20분
8
8장: 도메인 특화 데이터셋 구축
의료, 법률, 금융, 코드 도메인별 합성 데이터 접근법, 전문가 시드 데이터 설계, InstructLab 택소노미 방식, 도메인 검증 전략을 다룹니다.
2026년 4월 4일22분
9
9장: 합성 데이터 평가와 벤치마킹
TSTR 방법론, 다양성 메트릭, 분포 비교, 다운스트림 성능 측정, 합성 vs 실제 데이터 비교 실험, 벤치마크 설계 방법을 다룹니다.
2026년 4월 5일21분
10
10장: 실전 프로젝트 -- 합성 데이터 파이프라인 구축
엔드투엔드 합성 데이터 파이프라인 아키텍처, 생성-검증-필터링-증강-평가 통합, CI/CD 연동, 자동화된 품질 게이트, 비용 최적화, 프로덕션 운영 전략을 다룹니다.
2026년 4월 5일24분