생성형 AI 모델의 유형

생성형 AI는 학습 데이터의 패턴을 기반으로 새로운 콘텐츠를 생성하는 모델을 총칭한다. 책에서는 세 가지 주요 모델 유형을 소개한다.

VAE (변이형 오토인코더)

VAE(Variational Autoencoder) 는 입력 데이터를 잠재 공간(Latent Space)으로 인코딩한 뒤, 이 잠재 표현을 다시 디코딩하여 원본과 유사한 데이터를 생성한다. 확률적 잠재 공간을 사용하기 때문에 다양한 변형을 생성할 수 있다는 것이 특징이다.

GAN (생성적 적대 신경망)

GAN(Generative Adversarial Network) 은 생성자(Generator)와 판별자(Discriminator)의 경쟁적 학습 구조를 가진다. 생성자는 진짜 같은 데이터를 만들고, 판별자는 진짜와 가짜를 구별하려 한다. 이 적대적 과정을 통해 생성 품질이 점진적으로 향상된다.

트랜스포머

트랜스포머(Transformer) 는 현재 LLM의 근간을 이루는 아키텍처다. 2017년 "Attention Is All You Need" 논문에서 등장했으며, 순환 신경망(RNN)의 순차 처리 한계를 병렬 처리로 극복했다.

모델 유형	핵심 메커니즘	주요 용도
VAE	인코더-디코더, 확률적 잠재 공간	이미지 생성, 데이터 증강
GAN	생성자-판별자 적대적 학습	이미지 합성, 스타일 변환
트랜스포머	셀프 어텐션, 병렬 처리	텍스트 생성, 번역, 코드 생성

트랜스포머 아키텍처의 핵심

트랜스포머의 성능을 좌우하는 핵심 메커니즘은 세 가지다.

셀프 어텐션 (Self-Attention)

입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관계를 계산하는 메커니즘이다. "나는 은행에서 돈을 찾았다"라는 문장에서 "은행"의 의미를 파악하기 위해 "돈"이라는 단어와의 관계에 높은 가중치를 부여한다. 이를 통해 문맥에 따른 의미 파악이 가능해진다.

멀티 헤드 어텐션 (Multi-Head Attention)

셀프 어텐션을 여러 개의 "헤드"로 병렬 실행하여, 서로 다른 관점에서 토큰 간 관계를 포착한다. 하나의 헤드는 문법적 관계를, 다른 헤드는 의미적 관계를 학습하는 식이다.

위치 인코딩 (Positional Encoding)

트랜스포머는 순차 처리를 하지 않기 때문에, 토큰의 순서 정보를 별도로 주입해야 한다. 사인/코사인 함수 기반의 위치 인코딩을 통해 각 토큰의 위치 정보를 임베딩에 더한다.

LLM의 유형

책에서는 대규모 언어 모델을 다음과 같이 분류한다.

자기회귀 모델(Autoregressive) -- 이전 토큰들을 기반으로 다음 토큰을 예측한다. GPT 시리즈가 대표적이다.
인코더 전용 모델(Encoder-only) -- 입력 텍스트의 양방향 문맥을 이해하는 데 특화된다. BERT가 대표적이며, 분류나 개체명 인식 등에 활용된다.
멀티모달 모델(Multimodal) -- 텍스트 외에 이미지, 오디오 등 여러 모달리티를 처리한다. GPT-4V, Gemini 등이 해당한다.
지시 조정형 모델(Instruction-tuned) -- 사람의 지시를 따르도록 파인튜닝된 모델이다. InstructGPT, ChatGPT 등이 이 범주에 속한다.

각 유형은 에이전틱 시스템에서 서로 다른 역할을 수행할 수 있다. 자기회귀 모델은 계획 수립과 텍스트 생성에, 멀티모달 모델은 다양한 입력 소스를 처리하는 에이전트에 적합하다.

과제와 한계

생성형 AI가 강력한 기술이지만, 에이전틱 시스템 구축 관점에서 반드시 인지해야 할 한계가 있다.

과제	설명
데이터 품질	학습 데이터의 편향이 모델 출력에 직접 반영된다
프라이버시	학습 데이터에 포함된 개인정보 유출 위험이 존재한다
계산 자원	대규모 모델의 학습과 추론에 상당한 비용이 든다
윤리적 문제	딥페이크, 허위 정보 생성 등 악용 가능성이 있다
환각(Hallucination)	사실이 아닌 내용을 자신 있게 생성하는 현상이 발생한다

모델 유형	핵심 메커니즘	주요 용도
VAE	인코더-디코더, 확률적 잠재 공간	이미지 생성, 데이터 증강
GAN	생성자-판별자 적대적 학습	이미지 합성, 스타일 변환
트랜스포머	셀프 어텐션, 병렬 처리	텍스트 생성, 번역, 코드 생성

자기회귀 모델(Autoregressive) -- 이전 토큰들을 기반으로 다음 토큰을 예측한다. GPT 시리즈가 대표적이다.
인코더 전용 모델(Encoder-only) -- 입력 텍스트의 양방향 문맥을 이해하는 데 특화된다. BERT가 대표적이며, 분류나 개체명 인식 등에 활용된다.
멀티모달 모델(Multimodal) -- 텍스트 외에 이미지, 오디오 등 여러 모달리티를 처리한다. GPT-4V, Gemini 등이 해당한다.
지시 조정형 모델(Instruction-tuned) -- 사람의 지시를 따르도록 파인튜닝된 모델이다. InstructGPT, ChatGPT 등이 이 범주에 속한다.

과제와 한계

생성형 AI가 강력한 기술이지만, 에이전틱 시스템 구축 관점에서 반드시 인지해야 할 한계가 있다.

과제	설명
데이터 품질	학습 데이터의 편향이 모델 출력에 직접 반영된다
프라이버시	학습 데이터에 포함된 개인정보 유출 위험이 존재한다
계산 자원	대규모 모델의 학습과 추론에 상당한 비용이 든다
윤리적 문제	딥페이크, 허위 정보 생성 등 악용 가능성이 있다
환각(Hallucination)	사실이 아닌 내용을 자신 있게 생성하는 현상이 발생한다

1장: 생성형 AI의 기초

생성형 AI 모델의 유형

VAE (변이형 오토인코더)

GAN (생성적 적대 신경망)

트랜스포머

트랜스포머 아키텍처의 핵심

셀프 어텐션 (Self-Attention)

멀티 헤드 어텐션 (Multi-Head Attention)

위치 인코딩 (Positional Encoding)

LLM의 유형

과제와 한계

정리

댓글

1장: 생성형 AI의 기초

생성형 AI 모델의 유형

VAE (변이형 오토인코더)

GAN (생성적 적대 신경망)

트랜스포머

트랜스포머 아키텍처의 핵심

셀프 어텐션 (Self-Attention)

멀티 헤드 어텐션 (Multi-Head Attention)

위치 인코딩 (Positional Encoding)

LLM의 유형

과제와 한계

정리

댓글