밑바닥부터 만들면서 배우는 LLM
엔지니어링완독중급

밑바닥부터 만들면서 배우는 LLM

세바스찬 라시카

4.0
7/771분 읽기2026년 4월 6일 ~ 2026년 5월 5일

추천 대상 LLM의 내부 동작을 코드 레벨에서 이해하고 싶은 엔지니어

PyTorch로 GPT-2를 처음부터 끝까지 만들며 LLM의 내부 구조를 손으로 익히는 책

aillmdeep-learningtransformergptpytorch

세바스찬 라시카의 "밑바닥부터 만들면서 배우는 LLM"은 GPT-2 (124M) 규모의 LLM을 PyTorch로 처음부터 직접 구현하며 학습하는 책이다. 토크나이저, 임베딩, 어텐션 메커니즘, 트랜스포머 블록, 사전 훈련, 그리고 두 가지 미세 튜닝(분류, 지시)까지 LLM 파이프라인의 모든 구성 요소를 코드와 함께 따라가게 만든다.

API를 호출해 LLM을 활용하는 책은 많지만, 모델 내부에서 무슨 일이 일어나는지 한 줄씩 손으로 짚어보는 책은 흔치 않다. 그런 의미에서 이 책은 "LLM 사용자"에서 "LLM의 내부를 이해하는 엔지니어"로 한 단계 올라가고 싶은 사람에게 적합하다. 수학적 깊이를 과시하지 않고 행렬 연산 한 단계씩 풀어내는 저자 특유의 설명 방식이 강점이다.

읽으면서 가장 인상 깊었던 부분은 어텐션 메커니즘(3장)과 GPT 모델 조립(4장)이다. 행렬 한 줄, 텐서 한 차원이 어떻게 쌓여서 하나의 트랜스포머 블록이 되고, 그 블록이 12번 반복되면 GPT-2가 되는지 손으로 그려가며 이해할 수 있다. 5장 이후의 사전 훈련과 미세 튜닝은 코드 분량이 많아 한 번에 소화하기 부담스러웠지만, "왜 이 단계가 필요한가"라는 흐름은 일관되게 이어진다.

별점 4점은 깊이와 친절함 모두 만족스러웠다는 의미다. 한 가지 아쉬운 점은 책이 GPT-2 시대의 디코더 전용 구조에만 집중하기 때문에, 최신 모델(예: 라마 3, MoE, GQA 등)의 변형은 별도 자료로 보충해야 한다는 점이다. 그럼에도 트랜스포머 기반 LLM의 "기본기"를 한 권으로 끝내고 싶다면 가장 추천할 만한 책이다.

읽기 진행률7/7장 (100%)

목차

  1. 1

    1장: 대규모 언어 모델 이해하기

    LLM의 정의와 사전 훈련/미세 튜닝의 두 단계, 그리고 트랜스포머 구조의 인코더와 디코더를 정리한다.

    6
  2. 2

    2장: 텍스트 데이터 다루기

    토큰화부터 BPE, 슬라이딩 윈도 샘플링, 토큰 임베딩과 위치 임베딩까지 LLM 입력 파이프라인 전체를 정리한다.

    10
  3. 3

    3장: 어텐션 메커니즘 구현하기

    RNN의 한계에서 출발해 셀프 어텐션, 스케일드 닷-프로덕트 어텐션, 코잘 마스킹, 멀티 헤드 어텐션까지 손으로 따라가며 정리한다.

    12
  4. 4

    4장: 밑바닥부터 GPT 모델 구현하기

    층 정규화, GELU, 피드 포워드 네트워크, 숏컷 연결을 조립해 트랜스포머 블록을 만들고 GPT-2 124M을 완성한 뒤 텍스트를 생성한다.

    11
  5. 5

    5장: 레이블 없는 데이터로 사전 훈련하기

    교차 엔트로피 손실과 펄플렉서티, 훈련 루프, 가중치 저장/로드, 그리고 온도와 Top-k 샘플링으로 텍스트 생성을 제어하는 방법을 정리한다.

    10
  6. 6

    6장: 분류를 위해 미세 튜닝하기

    사전 훈련된 GPT의 출력층을 분류 헤드로 교체하고 스팸 분류기로 변환하는 과정을 데이터셋 준비부터 평가까지 따라간다.

    10
  7. 7

    7장: 지시를 따르도록 미세 튜닝하기

    Alpaca 프롬프트 형식, 커스텀 콜레이트 함수, -100 마스킹, 그리고 Ollama로 미세 튜닝 결과를 평가하는 지시 미세 튜닝 파이프라인을 정리한다.

    12