//
LLM에서 "대규모"라는 표현은 단순히 모델이 크다는 뜻이 아니다. 두 축에서 모두 큰 것을 의미한다.
여기서 파라미터(가중치)는 시퀀스의 다음 단어를 예측하도록 훈련하는 과정에서 조정되는 값이다. 다음 단어 예측이라는 단순한 과제가 결과적으로 맥락, 구조, 의미 관계를 학습하게 만드는 합리적인 학습 목표가 된다.
LLM을 만드는 과정은 크게 두 단계로 나뉜다.
트랜스포머는 두 개의 서브 모듈, **인코더(Encoder)**와 **디코더(Decoder)**로 구성된다. 원래는 기계 번역을 위해 만들어진 시퀀스-투-시퀀스 구조다.
| 구조 | 대표 모델 | 주요 용도 | 동작 방식 |
|---|---|---|---|
| 인코더 전용 | BERT | 분류, 임베딩 추출 | 양방향 컨텍스트로 입력 표현 학습 |
| 디코더 전용 | GPT 시리즈 | 텍스트 생성 | 왼쪽 컨텍스트만 보고 다음 토큰 예측 |
| 인코더-디코더 | T5, 원조 트랜스포머 | 번역, 요약 | 입력을 인코딩 후 출력 생성 |
이 책에서 만들 GPT는 디코더 전용 구조다. 텍스트 생성에 특화되어 있고, 인코더가 빠진 만큼 구조가 단순해 처음 구현해 보기에도 적합하다.
"왜 GPT는 디코더만 쓰는데 잘 되는가?"는 처음 LLM을 공부할 때 한 번쯤 막히는 질문이다. 답은 단순하다. 충분한 데이터와 파라미터가 주어지면, 다음 토큰 예측이라는 자기회귀 학습 목표만으로도 언어의 통사·의미 구조를 학습할 수 있기 때문이다. 인코더의 양방향 컨텍스트가 없어도, 시퀀스 전체를 한 토큰씩 자기 자신에게 노출하며 충분한 표현을 만든다.
1장은 책 전체의 지도다. LLM이 무엇이고, 어떻게 만들어지며, 트랜스포머의 어느 절반(디코더)이 GPT의 뼈대인지를 짧게 짚어 준다. 이후 2~4장에서 GPT를 처음부터 조립하고, 5장에서 사전 훈련, 6~7장에서 두 종류의 미세 튜닝을 다루는 흐름을 머릿속에 그려놓고 출발하면 좋다.
이 글이 도움이 되셨나요?