AI / ML10편 · 171분
AI 평가 하네스와 벤치마킹
300개 이상의 모델과 50개 이상의 벤치마크가 공존하는 시대, AI 평가 하네스가 왜 필요한지 그 정의와 핵심 구성요소, 평가 생태계 전체 지도를 살펴봅니다.
기술, 튜토리얼, 회고 등 개발과 관련된 글을 기록합니다.
16개 중 10-16 표시
300개 이상의 모델과 50개 이상의 벤치마크가 공존하는 시대, AI 평가 하네스가 왜 필요한지 그 정의와 핵심 구성요소, 평가 생태계 전체 지도를 살펴봅니다.
전통적 자동화에서 에이전틱 자동화로의 전환을 살펴보고, Agentic Workflow의 핵심 개념과 3단계 진화 모델, 구성 요소, 실제 사용 사례를 정리합니다.
결정론적 소프트웨어와 비결정적 AI 에이전트의 근본적 차이를 짚고, 전통적 QA 방법론의 한계와 에이전트 전용 3단계 테스트 모델을 소개합니다.
AI 에이전트가 왜 외부 메모리를 필요로 하는지, 컨텍스트 윈도우의 한계와 3가지 메모리 유형(단기/장기/에피소딕), 2026년 메모리 프레임워크 생태계를 개괄합니다.
벡터 데이터베이스가 등장한 배경과 전통 데이터베이스와의 차이점, 유사도 검색 원리, ANN 알고리즘의 필요성, 그리고 주요 벡터 데이터베이스 생태계를 개괄합니다.
키워드 검색에서 시맨틱 검색, 하이브리드 검색으로 이어지는 검색 기술의 진화 과정과 AI 검색 시스템의 핵심 구성요소를 살펴봅니다.
LLM 애플리케이션이 복잡해지는 이유를 분석하고, 오케스트레이션의 정의와 역할, 2026년 주요 프레임워크 생태계를 조망합니다.
16개 시리즈