학습 유형의 분류

머신러닝의 학습 방식은 크게 세 가지로 나뉜다. 이 분류는 "데이터에 정답(레이블)이 있는가"라는 기준에 따른 것이다.

학습 유형	레이블	목표	대표 알고리즘
지도학습	있음	입력-출력 매핑 학습	선형회귀, CNN, RNN
비지도학습	없음	데이터 구조 파악	K-means, GAN, 오토인코더
강화학습	없음	보상 최대화 행동 학습	Q-러닝, DQN, PPO

3부와 4부에서 다룬 내용은 모두 지도학습에 해당한다. 레이블이 달린 데이터를 통해 모델이 정답을 맞추는 방향으로 학습했다. 5부에서는 정답 없이 학습하는 비지도학습을 다룬다.

자기지도학습

최근 주목받는 학습 방식 중 하나가 **자기지도학습(Self-Supervised Learning)**이다. 엄밀히 말하면 지도학습과 비지도학습 사이에 위치하는 방법론으로, 데이터 자체에서 레이블을 자동으로 생성하여 학습한다.

대표적인 예가 자연어 처리에서의 마스크 예측이다. 문장의 일부 단어를 가리고 나머지 컨텍스트로 가려진 단어를 예측하도록 학습시킨다. 이 방식은 별도의 레이블링 작업 없이 대량의 텍스트 데이터로 학습할 수 있다는 장점이 있다.

BERT와 GPT 모두 자기지도학습을 기반으로 사전 학습된 모델이다. 이 개념은 7부에서 다시 등장하므로 기억해둘 필요가 있다.

K-means 클러스터링

K-means는 비지도학습의 가장 대표적인 알고리즘이다. 데이터를 K개의 그룹(클러스터)으로 나누는 것이 목표다.

알고리즘의 동작 과정은 다음과 같다.

K개의 초기 중심점(centroid)을 임의로 선택한다
각 데이터를 가장 가까운 중심점에 할당한다
각 클러스터의 평균을 계산하여 중심점을 이동한다
중심점이 더 이상 변하지 않을 때까지 2-3을 반복한다

K-means는 직관적이고 구현이 간단하지만, K값을 미리 지정해야 하고 초기 중심점에 따라 결과가 달라질 수 있다는 한계가 있다.

GAN: 생성적 적대 신경망

**GAN(Generative Adversarial Network)**은 2014년 이안 굿펠로가 제안한 비지도학습 기반의 생성 모델이다. 두 개의 신경망이 서로 경쟁하며 학습하는 구조가 특징적이다.

구성 요소	역할	비유
생성자(Generator)	가짜 데이터를 만들어낸다	위조범
감별자(Discriminator)	진짜와 가짜를 구분한다	감정사

학습 과정

생성자는 랜덤 노이즈로부터 데이터를 생성하고, 감별자는 입력된 데이터가 진짜인지 가짜인지 판별한다. 두 네트워크가 반복적으로 경쟁하면서 다음과 같은 상태로 수렴한다.

생성자는 감별자를 점점 더 잘 속이게 된다
감별자는 판별이 점점 어려워진다
최종적으로 감별자의 판별 확률이 **50%**에 도달하면 학습이 완료된 것으로 본다

감별자가 50%라는 것은 동전 던지기와 같은 수준, 즉 진짜와 가짜를 전혀 구분할 수 없다는 의미다. 이 상태에서 생성자가 만드는 데이터는 실제 데이터와 구분할 수 없을 정도의 품질에 도달한 것이다.

GAN은 이미지 생성, 스타일 변환, 초해상도 등 다양한 분야에서 활용되었으며, 이후 등장한 확산 모델(Diffusion Model)에 생성 AI의 주도권을 넘겨주기 전까지 생성 모델의 대표 주자였다.

정리

5부는 레이블 없이 데이터의 구조를 파악하는 비지도학습의 세계를 소개한다. K-means의 단순함과 GAN의 창의적인 설계를 통해, 정답이 없는 상황에서도 AI가 유의미한 학습을 할 수 있다는 점을 보여준다.

학습 유형의 분류

머신러닝의 학습 방식은 크게 세 가지로 나뉜다. 이 분류는 "데이터에 정답(레이블)이 있는가"라는 기준에 따른 것이다.

학습 유형	레이블	목표	대표 알고리즘
지도학습	있음	입력-출력 매핑 학습	선형회귀, CNN, RNN
비지도학습	없음	데이터 구조 파악	K-means, GAN, 오토인코더
강화학습	없음	보상 최대화 행동 학습	Q-러닝, DQN, PPO

자기지도학습

BERT와 GPT 모두 자기지도학습을 기반으로 사전 학습된 모델이다. 이 개념은 7부에서 다시 등장하므로 기억해둘 필요가 있다.

K-means 클러스터링

K-means는 비지도학습의 가장 대표적인 알고리즘이다. 데이터를 K개의 그룹(클러스터)으로 나누는 것이 목표다.

알고리즘의 동작 과정은 다음과 같다.

K개의 초기 중심점(centroid)을 임의로 선택한다
각 데이터를 가장 가까운 중심점에 할당한다
각 클러스터의 평균을 계산하여 중심점을 이동한다
중심점이 더 이상 변하지 않을 때까지 2-3을 반복한다

K-means는 직관적이고 구현이 간단하지만, K값을 미리 지정해야 하고 초기 중심점에 따라 결과가 달라질 수 있다는 한계가 있다.

GAN: 생성적 적대 신경망

구성 요소	역할	비유
생성자(Generator)	가짜 데이터를 만들어낸다	위조범
감별자(Discriminator)	진짜와 가짜를 구분한다	감정사

학습 과정

생성자는 감별자를 점점 더 잘 속이게 된다
감별자는 판별이 점점 어려워진다
최종적으로 감별자의 판별 확률이 **50%**에 도달하면 학습이 완료된 것으로 본다

5부: 비지도학습

학습 유형의 분류

자기지도학습

K-means 클러스터링

GAN: 생성적 적대 신경망

학습 과정

정리

댓글

5부: 비지도학습

학습 유형의 분류

자기지도학습

K-means 클러스터링

GAN: 생성적 적대 신경망

학습 과정

정리

댓글