//
**강화학습(Reinforcement Learning)**은 에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 스스로 학습하는 방식이다. 지도학습처럼 정답을 알려주지 않고, 비지도학습처럼 데이터 구조를 파악하는 것도 아니다. 대신 "시행착오"를 통해 최적의 전략을 찾아간다.
| 구성 요소 | 설명 |
|---|---|
| 에이전트(Agent) | 행동을 결정하는 주체 |
| 환경(Environment) | 에이전트가 상호작용하는 대상 |
| 상태(State) | 현재 환경의 상황 |
| 행동(Action) | 에이전트가 선택할 수 있는 동작 |
| 보상(Reward) | 행동의 결과에 대한 피드백 |
저자는 강화학습의 대표적 성공 사례로 **알파고 제로(AlphaGo Zero)**를 소개한다. 2017년 딥마인드가 발표한 알파고 제로는 이전 버전인 알파고 리(AlphaGo Lee)와 결정적인 차이가 있다.
알파고 제로는 학습 시작 3일 만에 알파고 리를 100전 100승으로 이겼다. 인간의 지식 없이도, 오히려 인간의 편향 없이 순수하게 학습한 것이 더 나은 결과를 만들어냈다는 점에서 큰 반향을 일으켰다.
강화학습이 바둑에서 초인적인 성능을 보인 이유는 바둑이라는 환경의 특성에 있다.
이러한 특성 덕분에 에이전트가 수백만 번의 시행착오를 빠르게 반복할 수 있고, 그 과정에서 최적의 전략을 발견하게 된다. 게임, 로봇 시뮬레이션 등 규칙이 명확한 환경에서 강화학습은 여전히 가장 강력한 접근법 중 하나다.
하지만 현실 세계는 바둑판과 다르다. 저자는 강화학습이 복잡한 환경에서 겪는 근본적인 한계를 짚는다.
자율주행을 예로 들면, 도로 위의 모든 상황을 상태로 정의하고, 사고를 내지 않으면서 최적의 운전을 학습하도록 보상을 설계하는 것은 극도로 복잡한 문제다.
6부는 강화학습의 가능성과 한계를 균형 있게 보여준다. 알파고 제로의 성공은 인상적이지만, 그 성공이 가능했던 조건이 현실 세계에서는 쉽게 충족되지 않는다는 점을 이해하는 것이 중요하다. 이러한 한계가 이후 LLM 기반 접근법이 주목받게 된 배경이기도 하다.