1장: 대규모 언어 모델 이해하기
LLM의 정의와 사전 훈련/미세 튜닝의 두 단계, 그리고 트랜스포머 구조의 인코더와 디코더를 정리한다.

세바스찬 라시카
추천 대상 LLM의 내부 동작을 코드 레벨에서 이해하고 싶은 엔지니어
“PyTorch로 GPT-2를 처음부터 끝까지 만들며 LLM의 내부 구조를 손으로 익히는 책”
세바스찬 라시카의 "밑바닥부터 만들면서 배우는 LLM"은 GPT-2 (124M) 규모의 LLM을 PyTorch로 처음부터 직접 구현하며 학습하는 책이다. 토크나이저, 임베딩, 어텐션 메커니즘, 트랜스포머 블록, 사전 훈련, 그리고 두 가지 미세 튜닝(분류, 지시)까지 LLM 파이프라인의 모든 구성 요소를 코드와 함께 따라가게 만든다.
API를 호출해 LLM을 활용하는 책은 많지만, 모델 내부에서 무슨 일이 일어나는지 한 줄씩 손으로 짚어보는 책은 흔치 않다. 그런 의미에서 이 책은 "LLM 사용자"에서 "LLM의 내부를 이해하는 엔지니어"로 한 단계 올라가고 싶은 사람에게 적합하다. 수학적 깊이를 과시하지 않고 행렬 연산 한 단계씩 풀어내는 저자 특유의 설명 방식이 강점이다.
읽으면서 가장 인상 깊었던 부분은 어텐션 메커니즘(3장)과 GPT 모델 조립(4장)이다. 행렬 한 줄, 텐서 한 차원이 어떻게 쌓여서 하나의 트랜스포머 블록이 되고, 그 블록이 12번 반복되면 GPT-2가 되는지 손으로 그려가며 이해할 수 있다. 5장 이후의 사전 훈련과 미세 튜닝은 코드 분량이 많아 한 번에 소화하기 부담스러웠지만, "왜 이 단계가 필요한가"라는 흐름은 일관되게 이어진다.
별점 4점은 깊이와 친절함 모두 만족스러웠다는 의미다. 한 가지 아쉬운 점은 책이 GPT-2 시대의 디코더 전용 구조에만 집중하기 때문에, 최신 모델(예: 라마 3, MoE, GQA 등)의 변형은 별도 자료로 보충해야 한다는 점이다. 그럼에도 트랜스포머 기반 LLM의 "기본기"를 한 권으로 끝내고 싶다면 가장 추천할 만한 책이다.
LLM의 정의와 사전 훈련/미세 튜닝의 두 단계, 그리고 트랜스포머 구조의 인코더와 디코더를 정리한다.
토큰화부터 BPE, 슬라이딩 윈도 샘플링, 토큰 임베딩과 위치 임베딩까지 LLM 입력 파이프라인 전체를 정리한다.
RNN의 한계에서 출발해 셀프 어텐션, 스케일드 닷-프로덕트 어텐션, 코잘 마스킹, 멀티 헤드 어텐션까지 손으로 따라가며 정리한다.
층 정규화, GELU, 피드 포워드 네트워크, 숏컷 연결을 조립해 트랜스포머 블록을 만들고 GPT-2 124M을 완성한 뒤 텍스트를 생성한다.
교차 엔트로피 손실과 펄플렉서티, 훈련 루프, 가중치 저장/로드, 그리고 온도와 Top-k 샘플링으로 텍스트 생성을 제어하는 방법을 정리한다.
사전 훈련된 GPT의 출력층을 분류 헤드로 교체하고 스팸 분류기로 변환하는 과정을 데이터셋 준비부터 평가까지 따라간다.
Alpaca 프롬프트 형식, 커스텀 콜레이트 함수, -100 마스킹, 그리고 Ollama로 미세 튜닝 결과를 평가하는 지시 미세 튜닝 파이프라인을 정리한다.