//
알아서 잘하는 에이전틱 AI 시스템 구축하기 · 안자나바 비스와스, 릭 탈루크다르
에이전틱 AI 시스템이 사용자의 신뢰를 얻으려면, 자신의 결정 과정을 설명할 수 있어야 한다. 블랙박스로 동작하는 시스템은 아무리 정확해도 신뢰받기 어렵다.
설명 가능한 AI(Explainable AI)는 모델의 내부 작동 원리를 사람이 이해할 수 있는 형태로 제시하는 기술 분야다. LLM 기반 에이전트에서는 두 가지 접근이 주로 사용된다.
트랜스포머의 어텐션 가중치를 시각화하여, 모델이 어떤 입력 부분에 주목했는지 보여준다. 에이전트가 "왜 이 항공편을 선택했는가"라는 질문에 대해, 어떤 조건(가격, 시간, 경유 여부)에 높은 가중치를 부여했는지 시각적으로 확인할 수 있다.
입력의 각 요소가 최종 출력에 얼마나 기여했는지를 수치적으로 나타낸다. SHAP(SHapley Additive exPlanations)이나 LIME(Local Interpretable Model-agnostic Explanations) 같은 기법이 활용된다.
에이전트의 출력에 확신도를 함께 제공한다. "이 항공편을 추천합니다(확신도 85%)" 같은 형태다. 사용자가 에이전트의 확신 수준을 파악하고, 낮은 확신도의 결과에 대해 추가 검증을 할 수 있게 된다.
사전 확률을 기반으로 새로운 증거가 들어올 때마다 믿음을 업데이트하는 추론 방식이다. 에이전트가 초기 추천을 한 후, 사용자 피드백이나 새로운 데이터가 들어오면 추천을 수정하는 데 활용할 수 있다.
| 기법 | 목적 | 적용 예시 |
|---|---|---|
| 확률적 모델링 | 출력의 확신도 정량화 | 추천 결과에 신뢰 구간 표시 |
| 베이지안 추론 | 증거 기반 믿음 업데이트 | 사용자 피드백 반영한 추천 수정 |
| 앙상블 방법 | 다수 모델의 합의로 안정성 확보 | 여러 에이전트의 결과 교차 검증 |
학습 데이터에 내재된 편향이 에이전트의 결정에 반영되지 않도록 주의해야 한다. 여행 추천에서 특정 지역이나 항공사에 대한 편향, 가격대에 대한 편향 등이 발생할 수 있다. 정기적인 편향 감사(bias audit)와 다양성 지표 모니터링이 필요하다.
에이전트의 출력을 사용자에게 전달하는 방식도 신뢰에 직접적인 영향을 미친다.
신뢰는 사용자가 시스템을 통제할 수 있다고 느낄 때 형성된다.
에이전틱 AI 시스템 개발에는 기술적 역량 외에 윤리적 책임이 동반된다.
8장은 기술적 우수성만으로는 부족하다는 점을 명확히 한다. 에이전틱 AI 시스템이 실제로 채택되려면, 사용자가 시스템의 결정을 이해하고, 통제할 수 있으며, 시스템이 공정하게 동작한다는 확신을 가져야 한다. 투명성, 설명 가능성, 사용자 제어라는 세 축은 기술 설계 단계에서부터 고려되어야 할 1급 요구사항이다.