AI 시스템이 직면하는 보안 위협의 전체 지형을 조망합니다. OWASP Top 10 for LLM, 공격 표면 분석, 위협 모델링, 그리고 방어 전략의 계층적 접근법을 다룹니다.
AI 시스템, 특히 대규모 언어 모델(LLM) 기반 애플리케이션은 전통적인 소프트웨어와는 근본적으로 다른 보안 위협에 직면합니다. SQL 인젝션이 데이터베이스를 위협했듯, 프롬프트 인젝션은 LLM을 위협합니다. 그러나 위협은 프롬프트 인젝션만이 아닙니다. 이 장에서는 AI 보안의 전체 위협 지형을 조망하고, 이 시리즈에서 다룰 방어 전략의 전체 구조를 설계합니다.
전통적 소프트웨어는 결정론적(deterministic) 입니다. 같은 입력에 항상 같은 출력을 내며, 동작을 코드로 완전히 제어할 수 있습니다. 반면 LLM 기반 시스템은 다음과 같은 특성 때문에 보안 관리가 근본적으로 다릅니다.
LLM 보안은 이론적 위협이 아닌 실제 발생하고 있는 문제입니다.
| 사례 | 유형 | 영향 |
|---|---|---|
| Chevrolet 챗봇 탈옥 | 프롬프트 인젝션 | 챗봇이 $1에 차량 판매에 동의 |
| Bing Chat 초기 사고 | 시스템 프롬프트 유출 | 내부 지침이 공개됨 |
| DPD 택배 챗봇 | 가드레일 우회 | 자사를 비판하는 시를 작성 |
| Air Canada 판례 | 환각에 의한 잘못된 정보 | 법적 배상 책임 인정 |
OWASP(Open Worldwide Application Security Project)는 2025년 LLM 애플리케이션의 10대 보안 위협을 정의했습니다.
| 순위 | 위협 | 설명 |
|---|---|---|
| LLM01 | 프롬프트 인젝션 | 사용자 입력으로 모델 동작을 조작 |
| LLM02 | 민감 정보 유출 | 학습 데이터나 시스템 정보의 비의도적 노출 |
| LLM03 | 공급망 취약점 | 서드파티 모델, 플러그인, 데이터셋의 오염 |
| LLM04 | 데이터 및 모델 오염 | 학습/파인튜닝 데이터 조작을 통한 행동 변경 |
| LLM05 | 부적절한 출력 처리 | LLM 출력의 무검증 사용 (XSS, SSRF 등) |
| LLM06 | 과도한 에이전시 | 불필요하게 넓은 도구 접근 권한 |
| LLM07 | 시스템 프롬프트 유출 | 시스템 지침의 비인가 접근 |
| LLM08 | 벡터 및 임베딩 약점 | RAG 시스템의 검색 조작 |
| LLM09 | 잘못된 정보 생성 | 환각, 과신, 오류 정보 생성 |
| LLM10 | 무제한 소비 | 서비스 거부(DoS), 비용 폭증 공격 |
OWASP Top 10 for LLM Applications는 2023년 초판 이후 2025년에 개정되었습니다. 에이전트 시스템과 RAG의 보편화를 반영하여, 벡터/임베딩 약점(LLM08)과 과도한 에이전시(LLM06)가 새롭게 강조되었습니다.
사용자 입력 ──────────────┐
↓
외부 데이터 (웹, 이메일) ─→ [LLM 애플리케이션] ─→ 출력
↑ ↓
시스템 프롬프트 ───────────┘ [도구/API 호출]
↓
RAG 데이터 소스 ──────────────→ 외부 시스템
각 경로가 잠재적 공격 벡터입니다.
| 공격 표면 | 위협 유형 | 예시 |
|---|---|---|
| 사용자 입력 | 직접 프롬프트 인젝션 | 시스템 프롬프트 무시 지시 |
| 외부 데이터 | 간접 프롬프트 인젝션 | 웹 페이지에 숨겨진 지시 |
| RAG 데이터 | 데이터 오염 | 검색 결과에 악성 지시 삽입 |
| 시스템 프롬프트 | 유출 | 역할/지침 추출 시도 |
| 도구 호출 | 권한 남용 | 에이전트가 위험한 작업 수행 |
| 출력 | 부적절한 콘텐츠 | 유해/편향 콘텐츠 생성 |
| 모델 자체 | 공급망 공격 | 오염된 파인튜닝 데이터 |
에이전트(Agent) 시스템은 LLM이 외부 도구를 호출하고 자율적으로 의사결정을 내리므로, 공격의 영향이 크게 확대됩니다.
공격자의 프롬프트 인젝션
→ LLM이 악의적 도구 호출
→ 데이터 유출, 시스템 조작, 비용 폭증
AI 보안은 단일 방어 메커니즘으로 해결할 수 없습니다. 심층 방어(Defense in Depth) 원칙에 따라 여러 계층의 방어를 구축해야 합니다.
[사용자 입력]
↓
Layer 1: 입력 검증 및 필터링
↓
Layer 2: 프롬프트 설계 (인스트럭션 계층)
↓
Layer 3: 모델 수준 안전 정렬
↓
Layer 4: 출력 검증 및 필터링
↓
Layer 5: 도구/API 권한 제어
↓
Layer 6: 모니터링 및 이상 탐지
↓
[안전한 출력]
| 계층 | 역할 | 도구/기법 |
|---|---|---|
| 입력 검증 | 악의적 입력 차단 | 정규식, 분류기, 토큰 제한 |
| 프롬프트 설계 | 시스템 지침 강화 | 인스트럭션 계층, 구분자, 역할 고정 |
| 모델 안전 정렬 | 모델 자체의 안전 학습 | RLHF, Constitutional AI |
| 출력 검증 | 유해/잘못된 출력 차단 | 콘텐츠 분류기, 가드레일 |
| 권한 제어 | 도구 접근 최소화 | 최소 권한, 승인 워크플로우 |
| 모니터링 | 이상 행동 탐지 | 로깅, 감사, 알림 |
이 시리즈의 공격 기법 설명은 방어를 위한 이해 목적입니다. 실제 서비스에 대한 무단 보안 테스트는 법적 책임이 따를 수 있습니다. 보안 테스트는 반드시 승인된 환경에서, 적절한 권한 하에 수행하세요.
AI 보안은 프롬프트 인젝션부터 공급망 공격까지 넓은 스펙트럼의 위협을 포괄합니다. OWASP Top 10 for LLM Applications가 주요 위협을 체계화했으며, 심층 방어 전략으로 여러 계층의 보호를 구축하는 것이 핵심입니다. 다음 장부터 각 위협과 방어 메커니즘을 하나씩 깊이 파고들어 보겠습니다. 먼저 2장에서는 가장 대표적인 위협인 프롬프트 인젝션의 공격 기법과 방어 전략을 다룹니다.
이 글이 도움이 되셨나요?
직접 프롬프트 인젝션의 공격 기법, 탈옥 패턴, 그리고 인스트럭션 계층, 입력 검증, 구분자 전략 등 실전 방어 기법을 체계적으로 다룹니다.
간접 프롬프트 인젝션의 공격 벡터, RAG 오염, 이메일/웹 기반 공격, 그리고 데이터 소스 신뢰도 관리와 방어 전략을 실전 중심으로 다룹니다.
LLM 가드레일 시스템의 설계 원리, Llama Guard, NeMo Guardrails, Guardrails AI 등 주요 도구의 비교와 활용, 그리고 커스텀 가드레일 구축을 다룹니다.