# testing

9장: 모니터링 하네스 — 프로덕션 관측과 피드백 루프

토큰 사용량, 지연시간, 비용 추적, 드리프트 감지, 품질 모니터링, 알림 설계, 피드백 루프 등 AI 시스템의 관측 가능성 파이프라인을 다룹니다.

2026년 3월 23일

8장: 배포 하네스 — 안전한 모델 릴리즈

카나리 배포, 섀도우 테스팅, A/B 테스트, 블루-그린 배포, 롤백 전략 등 AI 시스템을 프로덕션에 안전하게 배포하는 전략을 다룹니다.

2026년 3월 22일

AI / ML23분 읽기

10장: 실전 프로젝트 -- AI 테스트 자동화 파이프라인

단위, 통합, E2E, 시각적, 변이 테스트를 하나의 AI 테스트 자동화 파이프라인으로 통합합니다. Codium, Playwright, Applitools를 결합한 CI/CD 파이프라인과 대시보드, 도입 로드맵, ROI 측정을 다룹니다.

2026년 3월 21일

7장: 오케스트레이션 하네스 — 워크플로우 제어

에이전트 라이프사이클 관리, 도구 오케스트레이션, 서브에이전트 관리, 상태 관리, 에러 복구 등 복잡한 AI 워크플로우를 조율하는 방법을 다룹니다.

2026년 3월 20일

AI / ML22분 읽기

9장: Agentic QA -- 자율 테스트 에이전트

유저 스토리에서 Gherkin 시나리오를 거쳐 실행 가능한 테스트로 자동 변환하는 Agentic QA의 아키텍처, 자율 탐색 테스트, Human-on-the-loop 감독 체계, 그리고 품질 게이트 통합을 다룹니다.

2026년 3월 19일

6장: 가드레일 하네스 — 안전 장치 설계와 구현

프롬프트 인젝션 방어, 유해 콘텐츠 필터링, Guardrails AI와 NeMo Guardrails 프레임워크, 다계층 방어 전략을 통해 AI 시스템의 안전을 보장하는 방법을 다룹니다.

2026년 3월 18일

10장: 실전 프로젝트 — 에이전트 품질 보증 파이프라인

단위 테스트부터 프로덕션 모니터링까지 전체 에이전트 품질 보증 파이프라인을 구축하고, 도입 체크리스트와 성숙도 모델을 제시합니다.

2026년 3월 18일

8장: AI QA 파이프라인 구축

변경 영향 분석 기반 테스트 선택, 위험 기반 우선순위, 플레이키 테스트 자동 격리, 병렬 실행 최적화, 결함 예측, GitHub Actions/GitLab CI 통합을 다루는 AI QA 파이프라인 구축 가이드입니다.

2026년 3월 17일

AI / ML14분 읽기

5장: 평가 하네스 — 모델 성능 측정 파이프라인

lm-evaluation-harness, Inspect AI, HELM 프레임워크 분석과 커스텀 평가 하네스 설계, 벤치마크 스위트 구성, 자동화된 모델 비교 방법을 다룹니다.

2026년 3월 16일

9장: CI/CD 통합과 품질 게이트

GitHub Actions에서 에이전트 테스트를 실행하고, 품질 게이트 임계값을 설계하며, PR별 평가와 온라인 평가를 연결하는 자동화 전략을 다룹니다.

2026년 3월 16일

7장: 테스트 유지보수 자동화

테스트 로트(Test Rot) 문제의 근본 원인과 AI 기반 셀프 힐링, 셀렉터 자동 재바인딩, 테스트 코드 리팩터링, 중복 테스트 감지, 커버리지 갭 분석 등 유지보수 비용 절감 전략을 다룹니다.

2026년 3월 15일

4장: 테스트 하네스 — AI 시스템의 품질 보증

비결정적 출력 테스트, 스냅샷 테스트, 속성 기반 테스트, 회귀 테스트, 에이전트 행동 테스트 등 AI 시스템 테스트의 핵심 기법을 다룹니다.

2026년 3월 14일

8장: 에이전트 시뮬레이션과 레드티밍

시뮬레이션 사용자 기반 적대적 테스트, 엣지 케이스 자동 생성, 스트레스 테스트, 안전성 가드레일 검증, 자동 레드티밍 기법을 다룹니다.

2026년 3월 14일

AI / ML13분 읽기

10장: 실전 프로젝트 — 보안 강화 LLM 애플리케이션

시리즈 전체의 보안 기법을 종합하여 프로덕션 수준의 보안 강화 LLM 애플리케이션을 설계하고 구현합니다. 다층 방어, 가드레일, 모니터링을 통합한 실전 시스템입니다.

2026년 3월 14일

6장: 시각적 회귀 테스트

픽셀 비교의 한계를 넘어 Visual AI 기반 시각적 회귀 테스트를 다룹니다. Applitools Eyes, Percy, Chromatic 비교 분석과 동적 콘텐츠 처리, 반응형 레이아웃 테스트, 스토리북 통합을 안내합니다.

2026년 3월 13일

3장: AI 모델 래핑과 입출력 제어

모델 추상화 계층 설계, 프롬프트 구성과 컨텍스트 주입, 스키마 기반 출력 제어, 폴백 전략 등 AI 모델의 입출력을 체계적으로 관리하는 방법을 다룹니다.

2026년 3월 12일

7장: 에이전트 안정성 메트릭

태스크 성공률 추이, 행동 드리프트 감지, 응답 길이 변동, 지연시간 안정성, 비용 변동성 등 에이전트의 장기적 안정성을 추적하는 메트릭과 대시보드 설계를 다룹니다.

2026년 3월 12일

AI / ML10분 읽기

9장: 보안 모니터링과 사고 대응

LLM 시스템의 보안 모니터링 아키텍처, 이상 탐지, 보안 대시보드, 사고 대응 프로세스, 그리고 지속적 보안 운영 체계를 다룹니다.

2026년 3월 12일

AI / ML15분 읽기

5장: 변이 테스트(Mutation Testing)

변이 테스트의 원리와 변이 연산자를 이해하고, Stryker, PIT, mutmut 도구로 AI 생성 테스트의 품질을 검증하는 방법을 다룹니다. 변이 점수 측정과 비용-효과 분석도 포함합니다.

2026년 3월 11일

AI / ML21분 읽기

2장: 하네스 아키텍처 설계 패턴

래핑, 미들웨어, 사이드카, 파이프라인, 이벤트 기반 등 AI 시스템 하네스의 5가지 핵심 아키텍처 패턴과 적용 시나리오를 분석합니다.

2026년 3월 10일

6장: 회귀 테스트 자동화

평가를 회귀 테스트로 졸업시키는 패턴, Golden Dataset 관리, 롤링 성공률 모니터링, 베이스라인 관리와 변경 영향 분석을 다룹니다.

2026년 3월 10일

AI / ML13분 읽기

8장: AI 규제와 컴플라이언스

EU AI Act를 중심으로 글로벌 AI 규제의 핵심 요구사항, 위험 분류 체계, 기술적 컴플라이언스 전략, 그리고 책임 있는 AI 개발 프레임워크를 다룹니다.

2026년 3월 10일

4장: E2E 테스트 -- AI 에이전트 기반 자동화

자연어를 E2E 테스트로 변환하는 Momentic, testRigor, Functionize와 DOM 변경에 자동 적응하는 셀프 힐링 기능, Playwright와 AI를 결합한 실전 E2E 테스트 자동화를 다룹니다.

2026년 3월 9일

1장: 하네스 엔지니어링의 등장과 핵심 개념

AI 에이전트에서 모델을 감싸는 모든 것, 하네스 엔지니어링의 정의와 등장 배경, 그리고 5가지 핵심 역할을 살펴봅니다.

2026년 3월 8일

5장: 비결정적 출력 평가

LLM-as-Judge 패턴으로 에이전트의 비결정적 출력을 평가하는 방법, 품질 차원별 점수 산출, 임계값 설정, pass@k 전략을 상세히 다룹니다.

2026년 3월 8일

AI / ML14분 읽기

7장: 레드티밍과 보안 테스트 자동화

AI 시스템의 레드티밍 방법론, 자동화된 보안 테스트, 프롬프트 인젝션 퍼징, 그리고 지속적 보안 검증 파이프라인 구축을 다룹니다.

2026년 3월 8일

3장: 통합 테스트와 API 테스트 자동화

API 스키마 기반 테스트 자동 생성, 계약 테스트(Contract Testing), testcontainers와 AI를 결합한 데이터베이스 통합 테스트, 그리고 CI 파이프라인 통합 방법을 다룹니다.

2026년 3월 6일

4장: 엔드투엔드 시나리오 테스트

사용자 시뮬레이션 기반 멀티턴 대화 테스트, 워크플로우 완료 검증, 반복 호출 및 모순적 계획 감지 등 E2E 시나리오 테스트의 전체 방법론을 다룹니다.

2026년 3월 6일

AI / ML9분 읽기

6장: LLM 애플리케이션의 인증과 권한 관리

LLM 기반 시스템의 인증 아키텍처, 에이전트 도구 접근 제어, 최소 권한 원칙, API 키 관리, 그리고 Human-in-the-Loop 패턴을 실전 중심으로 다룹니다.

2026년 3월 6일

2장: AI 기반 단위 테스트 자동 생성

LLM 기반 단위 테스트 자동 생성의 원리와 실전 활용법을 다룹니다. Diffblue, Codium/Qodo 도구를 활용한 pytest/Jest 테스트 생성 실습과 생성된 테스트의 품질 검증 방법을 안내합니다.

2026년 3월 4일

3장: 도구 호출 검증

에이전트의 도구 호출 정확성을 이름, 파라미터, 출력의 3단계로 검증하는 방법과 모킹 전략, 도구 체인 순서 검증, 불필요한 호출 감지 기법을 다룹니다.

2026년 3월 4일

AI / ML10분 읽기

5장: 콘텐츠 안전성과 유해 출력 방지

LLM의 유해 콘텐츠 생성 방지, 편향 완화, 환각 탐지, 그리고 Constitutional AI와 RLHF의 원리를 다루며 안전한 AI 출력을 위한 다층 전략을 설계합니다.

2026년 3월 4일

1장: AI 기반 테스트 자동화의 진화와 현재

전통적인 테스트 자동화에서 AI 기반 테스트로의 전환을 살펴봅니다. Agentic QA의 등장, 2026년 도구 생태계, 그리고 70% 이상 기업이 도입한 AI 테스트의 현황과 30-45% 효율 개선 사례를 분석합니다.

2026년 3월 2일

2장: 에이전트 행동 테스트 프레임워크

Scenario, Agentest, Inspect AI, Braintrust 등 주요 에이전트 테스트 프레임워크를 비교하고, 프로젝트 특성에 맞는 선택 기준과 환경 설정 방법을 안내합니다.

2026년 3월 2일

AI / ML12분 읽기

4장: 가드레일 설계 — 입력/출력 필터링 시스템

LLM 가드레일 시스템의 설계 원리, Llama Guard, NeMo Guardrails, Guardrails AI 등 주요 도구의 비교와 활용, 그리고 커스텀 가드레일 구축을 다룹니다.

2026년 2월 28일

1장: AI 에이전트 테스트의 필요성과 과제

결정론적 소프트웨어와 비결정적 AI 에이전트의 근본적 차이를 짚고, 전통적 QA 방법론의 한계와 에이전트 전용 3단계 테스트 모델을 소개합니다.

2026년 2월 28일

AI / ML12분 읽기

3장: 간접 프롬프트 인젝션과 데이터 오염

간접 프롬프트 인젝션의 공격 벡터, RAG 오염, 이메일/웹 기반 공격, 그리고 데이터 소스 신뢰도 관리와 방어 전략을 실전 중심으로 다룹니다.

2026년 2월 26일

2장: 프롬프트 인젝션 공격과 방어

직접 프롬프트 인젝션의 공격 기법, 탈옥 패턴, 그리고 인스트럭션 계층, 입력 검증, 구분자 전략 등 실전 방어 기법을 체계적으로 다룹니다.

2026년 2월 24일

AI / ML11분 읽기

1장: AI 보안의 전체 그림과 위협 모델

AI 시스템이 직면하는 보안 위협의 전체 지형을 조망합니다. OWASP Top 10 for LLM, 공격 표면 분석, 위협 모델링, 그리고 방어 전략의 계층적 접근법을 다룹니다.

2026년 2월 2일

AI / ML22분 읽기

10장: 실전 프로젝트 - 종합 평가 모니터링 시스템 구축

지금까지 다룬 평가 메트릭, LLM-as-Judge, 모니터링, CI/CD를 통합하여 프로덕션 수준의 종합 평가 시스템을 구축합니다.

2026년 1월 31일

AI / ML15분 읽기

9장: CI/CD에 평가 파이프라인 통합

LLM 평가를 CI/CD 파이프라인에 통합하여, 프롬프트 변경과 모델 교체 시 자동으로 품질을 검증하는 체계를 구축합니다.

2026년 1월 29일

8장: 드리프트 감지와 품질 모니터링

LLM 애플리케이션의 입력 분포 변화, 모델 성능 저하, 데이터 드리프트를 감지하고 대응하는 방법을 다룹니다.

2026년 1월 27일

AI / ML14분 읽기

7장: 프로덕션 로깅과 관찰 가능성

LLM 애플리케이션의 프로덕션 환경에서 구조화된 로깅, 분산 트레이싱, 관찰 가능성을 구축하는 방법을 다룹니다.

2026년 1월 25일

AI / ML15분 읽기

6장: A/B 테스트와 온라인 실험

LLM 애플리케이션에서 A/B 테스트를 설계하고 실행하는 방법, 통계적 유의성 판단, 실험 결과 해석을 다룹니다.

2026년 1월 23일

AI / ML20분 읽기

5장: 인간 평가와 어노테이션 설계

LLM 평가에서 인간 평가의 역할, 어노테이션 가이드라인 설계, 평가자 간 일치도 관리 방법을 체계적으로 다룹니다.

2026년 1월 21일

4장: LLM-as-Judge - LLM으로 LLM 평가하기

LLM을 평가자로 활용하는 LLM-as-Judge 기법의 원리, 프롬프트 설계, 편향 완화 전략을 체계적으로 다룹니다.

2026년 1월 19일

AI / ML20분 읽기

3장: 자동 평가 파이프라인 구축

코드 기반 메트릭과 벤치마크 자동화로 LLM 애플리케이션의 품질을 체계적으로 측정하는 평가 파이프라인을 구축합니다.

2026년 1월 17일

2장: 평가 메트릭 설계 - 정확성, 관련성, 안전성

LLM 애플리케이션의 품질을 수치화하는 핵심 메트릭을 설계하고, 작업 유형별로 적절한 메트릭을 선택하는 방법을 다룹니다.

2026년 1월 15일