본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
//
  1. 홈
  2. 테크
  3. 1장: AI 보안의 전체 그림과 위협 모델
2026년 2월 24일·AI / ML·

1장: AI 보안의 전체 그림과 위협 모델

AI 시스템이 직면하는 보안 위협의 전체 지형을 조망합니다. OWASP Top 10 for LLM, 공격 표면 분석, 위협 모델링, 그리고 방어 전략의 계층적 접근법을 다룹니다.

11분86자6개 섹션
llmtestingsecurity
공유
ai-security1 / 10
12345678910
다음2장: 프롬프트 인젝션 공격과 방어

AI 시스템, 특히 대규모 언어 모델(LLM) 기반 애플리케이션은 전통적인 소프트웨어와는 근본적으로 다른 보안 위협에 직면합니다. SQL 인젝션이 데이터베이스를 위협했듯, 프롬프트 인젝션은 LLM을 위협합니다. 그러나 위협은 프롬프트 인젝션만이 아닙니다. 이 장에서는 AI 보안의 전체 위협 지형을 조망하고, 이 시리즈에서 다룰 방어 전략의 전체 구조를 설계합니다.

왜 AI 보안인가

전통적 소프트웨어와의 차이

전통적 소프트웨어는 결정론적(deterministic) 입니다. 같은 입력에 항상 같은 출력을 내며, 동작을 코드로 완전히 제어할 수 있습니다. 반면 LLM 기반 시스템은 다음과 같은 특성 때문에 보안 관리가 근본적으로 다릅니다.

  • 비결정적 출력: 같은 입력에도 다른 결과를 생성할 수 있음
  • 자연어 인터페이스: 구조화된 API가 아닌 자연어로 상호작용하므로 입력 검증이 어려움
  • 암시적 제어 흐름: 시스템 프롬프트, 사용자 입력, 외부 데이터가 모두 같은 채널(텍스트)로 전달
  • 도구 호출 능력: 에이전트 시스템에서 LLM이 외부 시스템을 직접 호출
  • 학습 데이터 의존: 모델의 행동이 학습 데이터에 의해 결정되며, 이는 외부에서 조작 가능

실제 보안 사고 사례

LLM 보안은 이론적 위협이 아닌 실제 발생하고 있는 문제입니다.

사례유형영향
Chevrolet 챗봇 탈옥프롬프트 인젝션챗봇이 $1에 차량 판매에 동의
Bing Chat 초기 사고시스템 프롬프트 유출내부 지침이 공개됨
DPD 택배 챗봇가드레일 우회자사를 비판하는 시를 작성
Air Canada 판례환각에 의한 잘못된 정보법적 배상 책임 인정

OWASP Top 10 for LLM Applications

OWASP(Open Worldwide Application Security Project)는 2025년 LLM 애플리케이션의 10대 보안 위협을 정의했습니다.

순위위협설명
LLM01프롬프트 인젝션사용자 입력으로 모델 동작을 조작
LLM02민감 정보 유출학습 데이터나 시스템 정보의 비의도적 노출
LLM03공급망 취약점서드파티 모델, 플러그인, 데이터셋의 오염
LLM04데이터 및 모델 오염학습/파인튜닝 데이터 조작을 통한 행동 변경
LLM05부적절한 출력 처리LLM 출력의 무검증 사용 (XSS, SSRF 등)
LLM06과도한 에이전시불필요하게 넓은 도구 접근 권한
LLM07시스템 프롬프트 유출시스템 지침의 비인가 접근
LLM08벡터 및 임베딩 약점RAG 시스템의 검색 조작
LLM09잘못된 정보 생성환각, 과신, 오류 정보 생성
LLM10무제한 소비서비스 거부(DoS), 비용 폭증 공격
Info

OWASP Top 10 for LLM Applications는 2023년 초판 이후 2025년에 개정되었습니다. 에이전트 시스템과 RAG의 보편화를 반영하여, 벡터/임베딩 약점(LLM08)과 과도한 에이전시(LLM06)가 새롭게 강조되었습니다.

AI 시스템의 공격 표면

공격 표면 분석

사용자 입력 ──────────────┐
                          ↓
외부 데이터 (웹, 이메일) ─→ [LLM 애플리케이션] ─→ 출력
                          ↑          ↓
시스템 프롬프트 ───────────┘    [도구/API 호출]
                                    ↓
RAG 데이터 소스 ──────────────→ 외부 시스템

각 경로가 잠재적 공격 벡터입니다.

공격 표면위협 유형예시
사용자 입력직접 프롬프트 인젝션시스템 프롬프트 무시 지시
외부 데이터간접 프롬프트 인젝션웹 페이지에 숨겨진 지시
RAG 데이터데이터 오염검색 결과에 악성 지시 삽입
시스템 프롬프트유출역할/지침 추출 시도
도구 호출권한 남용에이전트가 위험한 작업 수행
출력부적절한 콘텐츠유해/편향 콘텐츠 생성
모델 자체공급망 공격오염된 파인튜닝 데이터

에이전트 시스템의 확장된 공격 표면

에이전트(Agent) 시스템은 LLM이 외부 도구를 호출하고 자율적으로 의사결정을 내리므로, 공격의 영향이 크게 확대됩니다.

공격자의 프롬프트 인젝션
  → LLM이 악의적 도구 호출
    → 데이터 유출, 시스템 조작, 비용 폭증

방어의 계층적 접근: Defense in Depth

AI 보안은 단일 방어 메커니즘으로 해결할 수 없습니다. 심층 방어(Defense in Depth) 원칙에 따라 여러 계층의 방어를 구축해야 합니다.

[사용자 입력]
  ↓
Layer 1: 입력 검증 및 필터링
  ↓
Layer 2: 프롬프트 설계 (인스트럭션 계층)
  ↓
Layer 3: 모델 수준 안전 정렬
  ↓
Layer 4: 출력 검증 및 필터링
  ↓
Layer 5: 도구/API 권한 제어
  ↓
Layer 6: 모니터링 및 이상 탐지
  ↓
[안전한 출력]
계층역할도구/기법
입력 검증악의적 입력 차단정규식, 분류기, 토큰 제한
프롬프트 설계시스템 지침 강화인스트럭션 계층, 구분자, 역할 고정
모델 안전 정렬모델 자체의 안전 학습RLHF, Constitutional AI
출력 검증유해/잘못된 출력 차단콘텐츠 분류기, 가드레일
권한 제어도구 접근 최소화최소 권한, 승인 워크플로우
모니터링이상 행동 탐지로깅, 감사, 알림

이 시리즈에서 다루는 내용

  • 2장: 직접 프롬프트 인젝션 — 공격 기법과 방어 전략
  • 3장: 간접 프롬프트 인젝션과 데이터 오염
  • 4장: 가드레일 설계 — 입력/출력 필터링 시스템
  • 5장: 콘텐츠 안전성과 유해 출력 방지
  • 6장: LLM 애플리케이션의 인증과 권한 관리
  • 7장: 레드티밍과 보안 테스트 자동화
  • 8장: AI 규제와 컴플라이언스
  • 9장: 보안 모니터링과 사고 대응
  • 10장: 실전 프로젝트 — 보안 강화 LLM 애플리케이션
Warning

이 시리즈의 공격 기법 설명은 방어를 위한 이해 목적입니다. 실제 서비스에 대한 무단 보안 테스트는 법적 책임이 따를 수 있습니다. 보안 테스트는 반드시 승인된 환경에서, 적절한 권한 하에 수행하세요.

정리

AI 보안은 프롬프트 인젝션부터 공급망 공격까지 넓은 스펙트럼의 위협을 포괄합니다. OWASP Top 10 for LLM Applications가 주요 위협을 체계화했으며, 심층 방어 전략으로 여러 계층의 보호를 구축하는 것이 핵심입니다. 다음 장부터 각 위협과 방어 메커니즘을 하나씩 깊이 파고들어 보겠습니다. 먼저 2장에서는 가장 대표적인 위협인 프롬프트 인젝션의 공격 기법과 방어 전략을 다룹니다.

이 글이 도움이 되셨나요?

관련 주제 더 보기

#llm#testing#security

관련 글

AI / ML

2장: 프롬프트 인젝션 공격과 방어

직접 프롬프트 인젝션의 공격 기법, 탈옥 패턴, 그리고 인스트럭션 계층, 입력 검증, 구분자 전략 등 실전 방어 기법을 체계적으로 다룹니다.

2026년 2월 26일·16분
AI / ML

3장: 간접 프롬프트 인젝션과 데이터 오염

간접 프롬프트 인젝션의 공격 벡터, RAG 오염, 이메일/웹 기반 공격, 그리고 데이터 소스 신뢰도 관리와 방어 전략을 실전 중심으로 다룹니다.

2026년 2월 28일·12분
AI / ML

4장: 가드레일 설계 — 입력/출력 필터링 시스템

LLM 가드레일 시스템의 설계 원리, Llama Guard, NeMo Guardrails, Guardrails AI 등 주요 도구의 비교와 활용, 그리고 커스텀 가드레일 구축을 다룹니다.

2026년 3월 2일·12분
다음 글2장: 프롬프트 인젝션 공격과 방어

댓글

목차

약 11분 남음
  • 왜 AI 보안인가
    • 전통적 소프트웨어와의 차이
    • 실제 보안 사고 사례
  • OWASP Top 10 for LLM Applications
  • AI 시스템의 공격 표면
    • 공격 표면 분석
    • 에이전트 시스템의 확장된 공격 표면
  • 방어의 계층적 접근: Defense in Depth
  • 이 시리즈에서 다루는 내용
  • 정리