"대규모 언어 모델"의 두 가지 의미

LLM에서 "대규모"라는 표현은 단순히 모델이 크다는 뜻이 아니다. 두 축에서 모두 큰 것을 의미한다.

파라미터 크기 — 신경망의 가중치 개수. GPT-2는 124M, GPT-3는 175B.
훈련 데이터셋 크기 — 모델이 학습하는 원시 텍스트 말뭉치의 분량.

여기서 파라미터(가중치)는 시퀀스의 다음 단어를 예측하도록 훈련하는 과정에서 조정되는 값이다. 다음 단어 예측이라는 단순한 과제가 결과적으로 맥락, 구조, 의미 관계를 학습하게 만드는 합리적인 학습 목표가 된다.

LLM 구축의 두 단계

LLM을 만드는 과정은 크게 두 단계로 나뉜다.

사전 훈련(Pre-training) — 대규모 원시 텍스트 말뭉치에서 다음 토큰 예측을 학습하는 첫 단계다. 이 단계를 거친 모델을 베이스 모델 혹은 파운데이션 모델이라 부른다.
미세 튜닝(Fine-tuning) — 선택적인 두 번째 단계로, 베이스 모델을 특정 목적에 맞게 추가 학습한다. 대표적으로 지시(Instruction) 미세 튜닝과 분류(Classification) 미세 튜닝이 있으며, 이 책에서는 두 가지를 모두 다룬다.

트랜스포머 구조: 인코더와 디코더

트랜스포머는 두 개의 서브 모듈, **인코더(Encoder)**와 **디코더(Decoder)**로 구성된다. 원래는 기계 번역을 위해 만들어진 시퀀스-투-시퀀스 구조다.

구조	대표 모델	주요 용도	동작 방식
인코더 전용	BERT	분류, 임베딩 추출	양방향 컨텍스트로 입력 표현 학습
디코더 전용	GPT 시리즈	텍스트 생성	왼쪽 컨텍스트만 보고 다음 토큰 예측
인코더-디코더	T5, 원조 트랜스포머	번역, 요약	입력을 인코딩 후 출력 생성

이 책에서 만들 GPT는 디코더 전용 구조다. 텍스트 생성에 특화되어 있고, 인코더가 빠진 만큼 구조가 단순해 처음 구현해 보기에도 적합하다.

Tip

"왜 GPT는 디코더만 쓰는데 잘 되는가?"는 처음 LLM을 공부할 때 한 번쯤 막히는 질문이다. 답은 단순하다. 충분한 데이터와 파라미터가 주어지면, 다음 토큰 예측이라는 자기회귀 학습 목표만으로도 언어의 통사·의미 구조를 학습할 수 있기 때문이다. 인코더의 양방향 컨텍스트가 없어도, 시퀀스 전체를 한 토큰씩 자기 자신에게 노출하며 충분한 표현을 만든다.

정리

1장은 책 전체의 지도다. LLM이 무엇이고, 어떻게 만들어지며, 트랜스포머의 어느 절반(디코더)이 GPT의 뼈대인지를 짧게 짚어 준다. 이후 2~4장에서 GPT를 처음부터 조립하고, 5장에서 사전 훈련, 6~7장에서 두 종류의 미세 튜닝을 다루는 흐름을 머릿속에 그려놓고 출발하면 좋다.

"대규모 언어 모델"의 두 가지 의미

LLM에서 "대규모"라는 표현은 단순히 모델이 크다는 뜻이 아니다. 두 축에서 모두 큰 것을 의미한다.

파라미터 크기 — 신경망의 가중치 개수. GPT-2는 124M, GPT-3는 175B.

훈련 데이터셋 크기 — 모델이 학습하는 원시 텍스트 말뭉치의 분량.

LLM 구축의 두 단계

LLM을 만드는 과정은 크게 두 단계로 나뉜다.

사전 훈련(Pre-training) — 대규모 원시 텍스트 말뭉치에서 다음 토큰 예측을 학습하는 첫 단계다. 이 단계를 거친 모델을 베이스 모델 혹은 파운데이션 모델이라 부른다.

미세 튜닝(Fine-tuning) — 선택적인 두 번째 단계로, 베이스 모델을 특정 목적에 맞게 추가 학습한다. 대표적으로 지시(Instruction) 미세 튜닝과 분류(Classification) 미세 튜닝이 있으며, 이 책에서는 두 가지를 모두 다룬다.

트랜스포머 구조: 인코더와 디코더

트랜스포머는 두 개의 서브 모듈, **인코더(Encoder)**와 **디코더(Decoder)**로 구성된다. 원래는 기계 번역을 위해 만들어진 시퀀스-투-시퀀스 구조다.

구조	대표 모델	주요 용도	동작 방식
인코더 전용	BERT	분류, 임베딩 추출	양방향 컨텍스트로 입력 표현 학습
디코더 전용	GPT 시리즈	텍스트 생성	왼쪽 컨텍스트만 보고 다음 토큰 예측
인코더-디코더	T5, 원조 트랜스포머	번역, 요약	입력을 인코딩 후 출력 생성

이 책에서 만들 GPT는 디코더 전용 구조다. 텍스트 생성에 특화되어 있고, 인코더가 빠진 만큼 구조가 단순해 처음 구현해 보기에도 적합하다.

Tip

정리

1장: 대규모 언어 모델 이해하기

"대규모 언어 모델"의 두 가지 의미

LLM 구축의 두 단계

트랜스포머 구조: 인코더와 디코더

정리

댓글

1장: 대규모 언어 모델 이해하기

"대규모 언어 모델"의 두 가지 의미

LLM 구축의 두 단계

트랜스포머 구조: 인코더와 디코더

정리

댓글