//
딥러닝의 역사는 생물학적 뉴런을 수학적으로 모방하려는 시도에서 시작되었다. 인간의 뉴런은 여러 입력 신호를 받아 일정 임계값을 넘으면 출력 신호를 내보내는 구조인데, 이를 수학적으로 단순화한 것이 **퍼셉트론(Perceptron)**이다.
| 모델 | 연도 | 특징 |
|---|---|---|
| Mark1 퍼셉트론 | 1958 | 로젠블랫이 개발한 최초의 하드웨어 구현 퍼셉트론 |
| 아달린(ADALINE) | 1960 | 적응형 선형 뉴런, 연속적 출력값 사용 |
| 마달린(MADALINE) | 1960 | 다수의 아달린을 결합한 네트워크 |
Mark1은 이미지 인식을 목표로 했으며, 400개의 광센서를 입력으로 사용했다. 아달린은 가중치 업데이트에 기울기 기반 방법을 도입하여 이후 경사하강법의 토대가 되었다.
단일 퍼셉트론은 AND, OR 같은 선형 분리 가능한 문제는 해결할 수 있었지만, XOR 문제는 풀 수 없었다. 1969년 마빈 민스키와 시모어 페퍼트가 이 한계를 수학적으로 증명하면서 신경망 연구는 침체기에 빠졌다.
| 입력 A | 입력 B | AND | OR | XOR |
|---|---|---|---|---|
| 0 | 0 | 0 | 0 | 0 |
| 0 | 1 | 0 | 1 | 1 |
| 1 | 0 | 0 | 1 | 1 |
| 1 | 1 | 1 | 1 | 0 |
AND와 OR는 하나의 직선으로 두 클래스를 분리할 수 있지만, XOR는 직선 하나로는 분리가 불가능하다. 이 문제를 해결한 것이 **다층 퍼셉트론(MLP)**이다. 은닉층을 추가하면 비선형 결정 경계를 만들 수 있어 XOR도 풀 수 있게 된다.
다층 퍼셉트론을 더 깊게 쌓은 것이 **심층 신경망(Deep Neural Network)**이다. DNN은 세 가지 유형의 층으로 구성된다.
"딥"이라는 이름은 은닉층의 깊이에서 비롯된 것이다. 은닉층이 2개 이상이면 심층 신경망이라 부른다.
**합성곱 신경망(Convolutional Neural Network)**은 이미지 처리에 특화된 아키텍처다. 핵심 아이디어는 **필터(Filter)**를 사용하여 이미지의 공간적 특성을 추출하는 것이다.
필터는 작은 크기의 행렬로, 입력 이미지 위를 슬라이딩하면서 특정 패턴(가장자리, 질감, 형태 등)을 감지한다. 필터가 이미지 전체를 훑으며 만들어내는 결과물이 특성 맵(Feature Map), 저자의 표현으로는 "특성 시트"다.
| 층 | 추출하는 특성 |
|---|---|
| 얕은 층 | 가장자리, 색상 변화 등 저수준 특성 |
| 중간 층 | 질감, 패턴 등 중수준 특성 |
| 깊은 층 | 객체의 부분, 형태 등 고수준 특성 |
CNN이 기존의 DNN보다 이미지 처리에서 뛰어난 이유는 공간적 특성을 보존하기 때문이다. DNN에서는 28x28 이미지를 784개의 1차원 배열로 펼치면서 픽셀 간의 위치 관계가 사라지지만, CNN은 2차원 구조를 그대로 유지한 채 처리하므로 "위", "아래", "옆"이라는 공간 정보를 활용할 수 있다.
**순환 신경망(Recurrent Neural Network)**은 시간이나 순서가 있는 연속성 데이터를 처리하기 위한 아키텍처다. CNN이 공간적 패턴을 다룬다면, RNN은 시간적 패턴을 다룬다.
RNN의 핵심은 이전 시점의 출력이 다음 시점의 입력에 영향을 미치는 순환 구조에 있다. 과거의 정보를 기억하며 순차적으로 처리하기 때문에, 앞뒤 맥락이 중요한 데이터에 적합하다.
CNN은 "공간을 보는 눈", RNN은 "시간을 기억하는 뇌"로 이해하면 두 아키텍처의 차이를 직관적으로 파악할 수 있다. 이 두 가지가 결합되어 이후 트랜스포머의 등장을 촉진하게 된다.
4부는 퍼셉트론의 한계에서 출발하여 DNN, CNN, RNN으로 이어지는 딥러닝의 발전 흐름을 보여준다. 각 아키텍처는 서로 다른 유형의 데이터에 최적화되어 있으며, 이들의 장단점을 이해하는 것이 7부에서 다룰 트랜스포머를 이해하는 데 필수적인 배경지식이 된다.