← 모든 태그

#synthetic-data

10개의 글

AI / ML21분 읽기

9장: 합성 데이터 평가와 벤치마킹

TSTR 방법론, 다양성 메트릭, 분포 비교, 다운스트림 성능 측정, 합성 vs 실제 데이터 비교 실험, 벤치마크 설계 방법을 다룹니다.

AI / ML24분 읽기

10장: 실전 프로젝트 -- 합성 데이터 파이프라인 구축

엔드투엔드 합성 데이터 파이프라인 아키텍처, 생성-검증-필터링-증강-평가 통합, CI/CD 연동, 자동화된 품질 게이트, 비용 최적화, 프로덕션 운영 전략을 다룹니다.

AI / ML22분 읽기

8장: 도메인 특화 데이터셋 구축

의료, 법률, 금융, 코드 도메인별 합성 데이터 접근법, 전문가 시드 데이터 설계, InstructLab 택소노미 방식, 도메인 검증 전략을 다룹니다.

AI / ML20분 읽기

7장: 프라이버시 보존 합성 데이터

차등 프라이버시, PII 마스킹, 멤버십 추론 공격 방어, 유사도 필터, 규제 대응 전략과 프라이버시-유용성 트레이드오프를 다룹니다.

AI / ML21분 읽기

6장: 데이터 증강 기법

전통적 텍스트 증강부터 LLM 기반 증강, 어려운 예제 생성, 엣지 케이스 증강, 증강 비율 최적화까지 실전 데이터 증강 기법을 다룹니다.

AI / ML18분 읽기

5장: 데이터 품질 검증과 필터링 파이프라인

충실도, 유용성, 프라이버시 3계층 품질 평가 프레임워크와 LLM-as-Judge, 자동 필터링 파이프라인, 중복 제거 전략을 다룹니다.

AI / ML19분 읽기

4장: 구조화된 데이터와 멀티모달 합성

테이블/CSV 합성, JSON/SQL 데이터 생성, 이미지-텍스트 페어 생성, NVIDIA Nemotron 등 멀티모달 합성 데이터 생성 기법을 다룹니다.

AI / ML21분 읽기

3장: 텍스트 데이터 합성 실전

지시-응답 쌍, 대화 데이터, 분류/NER 학습 데이터, 다국어 데이터, 코드 데이터의 합성 파이프라인을 실전 코드와 함께 구축합니다.

AI / ML21분 읽기

2장: LLM 기반 데이터 생성의 원리와 기법

프롬프트 기반 생성, 디스틸레이션, Evol-Instruct, Self-Instruct 등 LLM을 활용한 합성 데이터 생성 기법의 원리와 실전 적용법을 다룹니다.

AI / ML19분 읽기

1장: 합성 데이터의 부상과 엔지니어링

합성 데이터의 정의와 유형, 2026년 합성 데이터가 필수가 된 배경, 데이터 순환 문제와 생태계 전체 지도를 살펴봅니다.