본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
← 전체 글

AI 에이전트 테스트와 품질 보증

10편총 176분 읽기8,306자
  1. 1

    1장: AI 에이전트 테스트의 필요성과 과제

    결정론적 소프트웨어와 비결정적 AI 에이전트의 근본적 차이를 짚고, 전통적 QA 방법론의 한계와 에이전트 전용 3단계 테스트 모델을 소개합니다.

    2026년 2월 28일·17분 읽기
  2. 2

    2장: 에이전트 행동 테스트 프레임워크

    Scenario, Agentest, Inspect AI, Braintrust 등 주요 에이전트 테스트 프레임워크를 비교하고, 프로젝트 특성에 맞는 선택 기준과 환경 설정 방법을 안내합니다.

    2026년 3월 2일·17분 읽기
  3. 3

    3장: 도구 호출 검증

    에이전트의 도구 호출 정확성을 이름, 파라미터, 출력의 3단계로 검증하는 방법과 모킹 전략, 도구 체인 순서 검증, 불필요한 호출 감지 기법을 다룹니다.

    2026년 3월 4일·18분 읽기
  4. 4

    4장: 엔드투엔드 시나리오 테스트

    사용자 시뮬레이션 기반 멀티턴 대화 테스트, 워크플로우 완료 검증, 반복 호출 및 모순적 계획 감지 등 E2E 시나리오 테스트의 전체 방법론을 다룹니다.

    2026년 3월 6일·18분 읽기
  5. 5

    5장: 비결정적 출력 평가

    LLM-as-Judge 패턴으로 에이전트의 비결정적 출력을 평가하는 방법, 품질 차원별 점수 산출, 임계값 설정, pass@k 전략을 상세히 다룹니다.

    2026년 3월 8일·17분 읽기
  6. 6

    6장: 회귀 테스트 자동화

    평가를 회귀 테스트로 졸업시키는 패턴, Golden Dataset 관리, 롤링 성공률 모니터링, 베이스라인 관리와 변경 영향 분석을 다룹니다.

    2026년 3월 10일·16분 읽기
  7. 7

    7장: 에이전트 안정성 메트릭

    태스크 성공률 추이, 행동 드리프트 감지, 응답 길이 변동, 지연시간 안정성, 비용 변동성 등 에이전트의 장기적 안정성을 추적하는 메트릭과 대시보드 설계를 다룹니다.

    2026년 3월 12일·17분 읽기
  8. 8

    8장: 에이전트 시뮬레이션과 레드티밍

    시뮬레이션 사용자 기반 적대적 테스트, 엣지 케이스 자동 생성, 스트레스 테스트, 안전성 가드레일 검증, 자동 레드티밍 기법을 다룹니다.

    2026년 3월 14일·19분 읽기
  9. 9

    9장: CI/CD 통합과 품질 게이트

    GitHub Actions에서 에이전트 테스트를 실행하고, 품질 게이트 임계값을 설계하며, PR별 평가와 온라인 평가를 연결하는 자동화 전략을 다룹니다.

    2026년 3월 16일·18분 읽기
  10. 10

    10장: 실전 프로젝트 — 에이전트 품질 보증 파이프라인

    단위 테스트부터 프로덕션 모니터링까지 전체 에이전트 품질 보증 파이프라인을 구축하고, 도입 체크리스트와 성숙도 모델을 제시합니다.

    2026년 3월 18일·19분 읽기