2026년 2월 24일·AI / ML·

1장: AI 보안의 전체 그림과 위협 모델

AI 시스템이 직면하는 보안 위협의 전체 지형을 조망합니다. OWASP Top 10 for LLM, 공격 표면 분석, 위협 모델링, 그리고 방어 전략의 계층적 접근법을 다룹니다.

11분86자6개 섹션

AI 시스템, 특히 대규모 언어 모델(LLM) 기반 애플리케이션은 전통적인 소프트웨어와는 근본적으로 다른 보안 위협에 직면합니다. SQL 인젝션이 데이터베이스를 위협했듯, 프롬프트 인젝션은 LLM을 위협합니다. 그러나 위협은 프롬프트 인젝션만이 아닙니다. 이 장에서는 AI 보안의 전체 위협 지형을 조망하고, 이 시리즈에서 다룰 방어 전략의 전체 구조를 설계합니다.

왜 AI 보안인가

전통적 소프트웨어와의 차이

전통적 소프트웨어는 결정론적(deterministic) 입니다. 같은 입력에 항상 같은 출력을 내며, 동작을 코드로 완전히 제어할 수 있습니다. 반면 LLM 기반 시스템은 다음과 같은 특성 때문에 보안 관리가 근본적으로 다릅니다.

비결정적 출력: 같은 입력에도 다른 결과를 생성할 수 있음
자연어 인터페이스: 구조화된 API가 아닌 자연어로 상호작용하므로 입력 검증이 어려움
암시적 제어 흐름: 시스템 프롬프트, 사용자 입력, 외부 데이터가 모두 같은 채널(텍스트)로 전달
도구 호출 능력: 에이전트 시스템에서 LLM이 외부 시스템을 직접 호출
학습 데이터 의존: 모델의 행동이 학습 데이터에 의해 결정되며, 이는 외부에서 조작 가능

실제 보안 사고 사례

LLM 보안은 이론적 위협이 아닌 실제 발생하고 있는 문제입니다.

사례	유형	영향
Chevrolet 챗봇 탈옥	프롬프트 인젝션	챗봇이 $1에 차량 판매에 동의
Bing Chat 초기 사고	시스템 프롬프트 유출	내부 지침이 공개됨
DPD 택배 챗봇	가드레일 우회	자사를 비판하는 시를 작성
Air Canada 판례	환각에 의한 잘못된 정보	법적 배상 책임 인정

OWASP Top 10 for LLM Applications

OWASP(Open Worldwide Application Security Project)는 2025년 LLM 애플리케이션의 10대 보안 위협을 정의했습니다.

순위	위협	설명
LLM01	프롬프트 인젝션	사용자 입력으로 모델 동작을 조작
LLM02	민감 정보 유출	학습 데이터나 시스템 정보의 비의도적 노출
LLM03	공급망 취약점	서드파티 모델, 플러그인, 데이터셋의 오염
LLM04	데이터 및 모델 오염	학습/파인튜닝 데이터 조작을 통한 행동 변경
LLM05	부적절한 출력 처리	LLM 출력의 무검증 사용 (XSS, SSRF 등)
LLM06	과도한 에이전시	불필요하게 넓은 도구 접근 권한
LLM07	시스템 프롬프트 유출	시스템 지침의 비인가 접근
LLM08	벡터 및 임베딩 약점	RAG 시스템의 검색 조작
LLM09	잘못된 정보 생성	환각, 과신, 오류 정보 생성
LLM10	무제한 소비	서비스 거부(DoS), 비용 폭증 공격

Info

OWASP Top 10 for LLM Applications는 2023년 초판 이후 2025년에 개정되었습니다. 에이전트 시스템과 RAG의 보편화를 반영하여, 벡터/임베딩 약점(LLM08)과 과도한 에이전시(LLM06)가 새롭게 강조되었습니다.

AI 시스템의 공격 표면

공격 표면 분석

사용자 입력 ──────────────┐
                          ↓
외부 데이터 (웹, 이메일) ─→ [LLM 애플리케이션] ─→ 출력
                          ↑          ↓
시스템 프롬프트 ───────────┘    [도구/API 호출]
                                    ↓
RAG 데이터 소스 ──────────────→ 외부 시스템

각 경로가 잠재적 공격 벡터입니다.

공격 표면	위협 유형	예시
사용자 입력	직접 프롬프트 인젝션	시스템 프롬프트 무시 지시
외부 데이터	간접 프롬프트 인젝션	웹 페이지에 숨겨진 지시
RAG 데이터	데이터 오염	검색 결과에 악성 지시 삽입
시스템 프롬프트	유출	역할/지침 추출 시도
도구 호출	권한 남용	에이전트가 위험한 작업 수행
출력	부적절한 콘텐츠	유해/편향 콘텐츠 생성
모델 자체	공급망 공격	오염된 파인튜닝 데이터

에이전트 시스템의 확장된 공격 표면

에이전트(Agent) 시스템은 LLM이 외부 도구를 호출하고 자율적으로 의사결정을 내리므로, 공격의 영향이 크게 확대됩니다.

공격자의 프롬프트 인젝션
  → LLM이 악의적 도구 호출
    → 데이터 유출, 시스템 조작, 비용 폭증

방어의 계층적 접근: Defense in Depth

AI 보안은 단일 방어 메커니즘으로 해결할 수 없습니다. 심층 방어(Defense in Depth) 원칙에 따라 여러 계층의 방어를 구축해야 합니다.

[사용자 입력]
  ↓
Layer 1: 입력 검증 및 필터링
  ↓
Layer 2: 프롬프트 설계 (인스트럭션 계층)
  ↓
Layer 3: 모델 수준 안전 정렬
  ↓
Layer 4: 출력 검증 및 필터링
  ↓
Layer 5: 도구/API 권한 제어
  ↓
Layer 6: 모니터링 및 이상 탐지
  ↓
[안전한 출력]

계층	역할	도구/기법
입력 검증	악의적 입력 차단	정규식, 분류기, 토큰 제한
프롬프트 설계	시스템 지침 강화	인스트럭션 계층, 구분자, 역할 고정
모델 안전 정렬	모델 자체의 안전 학습	RLHF, Constitutional AI
출력 검증	유해/잘못된 출력 차단	콘텐츠 분류기, 가드레일
권한 제어	도구 접근 최소화	최소 권한, 승인 워크플로우
모니터링	이상 행동 탐지	로깅, 감사, 알림

이 시리즈에서 다루는 내용

2장: 직접 프롬프트 인젝션 — 공격 기법과 방어 전략
3장: 간접 프롬프트 인젝션과 데이터 오염
4장: 가드레일 설계 — 입력/출력 필터링 시스템
5장: 콘텐츠 안전성과 유해 출력 방지
6장: LLM 애플리케이션의 인증과 권한 관리
7장: 레드티밍과 보안 테스트 자동화
8장: AI 규제와 컴플라이언스
9장: 보안 모니터링과 사고 대응
10장: 실전 프로젝트 — 보안 강화 LLM 애플리케이션

Warning

이 시리즈의 공격 기법 설명은 방어를 위한 이해 목적입니다. 실제 서비스에 대한 무단 보안 테스트는 법적 책임이 따를 수 있습니다. 보안 테스트는 반드시 승인된 환경에서, 적절한 권한 하에 수행하세요.

정리

AI 보안은 프롬프트 인젝션부터 공급망 공격까지 넓은 스펙트럼의 위협을 포괄합니다. OWASP Top 10 for LLM Applications가 주요 위협을 체계화했으며, 심층 방어 전략으로 여러 계층의 보호를 구축하는 것이 핵심입니다. 다음 장부터 각 위협과 방어 메커니즘을 하나씩 깊이 파고들어 보겠습니다. 먼저 2장에서는 가장 대표적인 위협인 프롬프트 인젝션의 공격 기법과 방어 전략을 다룹니다.

이 글이 도움이 되셨나요?

2장: 프롬프트 인젝션 공격과 방어

직접 프롬프트 인젝션의 공격 기법, 탈옥 패턴, 그리고 인스트럭션 계층, 입력 검증, 구분자 전략 등 실전 방어 기법을 체계적으로 다룹니다.

2026년 2월 26일·16분

AI / ML

3장: 간접 프롬프트 인젝션과 데이터 오염

간접 프롬프트 인젝션의 공격 벡터, RAG 오염, 이메일/웹 기반 공격, 그리고 데이터 소스 신뢰도 관리와 방어 전략을 실전 중심으로 다룹니다.

2026년 2월 28일·12분