지표의 세 가지 계층

저자는 AI 프로덕트가 추적해야 할 지표를 세 가지 계층으로 구분한다. 각 계층은 서로 다른 질문에 답한다.

프로덕트 상태 지표

사용자가 프로덕트에서 실제로 가치를 얻고 있는지를 측정하는 지표다.

참여도 지표

지표	설명	측정 방법
DAU/MAU	일간/월간 활성 사용자	고유 사용자 로그인 수
세션 시간	한 번의 방문에서 머무는 시간	평균 세션 길이
기능 사용률	특정 AI 기능을 사용하는 비율	AI 기능 트리거 수 / 전체 세션
반복 사용률	같은 기능을 반복적으로 사용하는 비율	7일 이내 재사용 비율

참여도 지표에서 주의할 점이 있다. AI 프로덕트에서 높은 세션 시간이 반드시 좋은 것은 아니다. 사용자가 AI의 응답을 이해하지 못해 헤매고 있는 것일 수도 있기 때문이다. 저자는 참여도 지표를 만족도 지표와 반드시 함께 해석해야 한다고 강조한다.

만족도 지표

지표	설명	수집 방법
NPS	순추천지수	정기 설문 (0-10점)
CSAT	고객 만족도	인터랙션 후 즉시 설문
CES	고객 노력도	작업 완료 후 난이도 평가
피드백 비율	부정적 피드백 비율	좋아요/싫어요 버튼, 신고

채택률 지표

지표	설명
활성화율	가입 후 핵심 기능을 처음 사용한 비율
온보딩 완료율	AI 기능 설정 과정을 끝까지 완료한 비율
AI 기능 옵트인율	AI 기능을 자발적으로 활성화한 비율
이탈률	AI 기능 사용 후 프로덕트를 떠난 비율

시스템 상태 지표

프로덕트를 뒷받침하는 인프라의 안정성과 성능을 측정한다.

지표	설명	기준값 예시
가동 시간(Uptime)	서비스가 정상 운영되는 시간 비율	99.9% (월 43분 다운타임)
지연 시간(Latency)	요청부터 응답까지 걸리는 시간	P50: 200ms, P99: 1s
처리량(Throughput)	단위 시간당 처리 가능한 요청 수	초당 1,000 요청
오류율(Error Rate)	전체 요청 중 오류가 발생한 비율	0.1% 미만
확장성(Scalability)	부하 증가 시 성능 유지 능력	피크 대비 3배까지

저자는 AI 프로덕트에서 특히 지연 시간이 중요하다고 강조한다. LLM 기반 서비스에서 응답까지 10초 이상 걸리면 사용자 이탈이 급격히 증가한다. 스트리밍 응답, 캐싱, 경량 모델 활용 등의 전략을 PM이 이해하고 있어야 한다.

AI 프록시 지표

모델 자체의 성능을 측정하는 지표다. PM이 직접 계산할 필요는 없지만, 각 지표의 의미와 프로덕트에 미치는 영향을 이해해야 한다.

분류 모델 지표

지표	정의	의미
정확도(Accuracy)	전체 예측 중 맞은 비율	불균형 데이터에서는 오해의 소지
정밀도(Precision)	양성 예측 중 실제 양성 비율	거짓 양성(False Positive) 비용이 클 때 중요
재현율(Recall)	실제 양성 중 양성으로 예측한 비율	거짓 음성(False Negative) 비용이 클 때 중요
F1 Score	정밀도와 재현율의 조화 평균	두 지표의 균형

혼동 행렬

혼동 행렬은 모델의 예측 결과를 네 가지 범주로 분류한다.

	실제 양성	실제 음성
예측 양성	TP (참 양성)	FP (거짓 양성)
예측 음성	FN (거짓 음성)	TN (참 음성)

저자는 프로덕트 맥락에서 어떤 오류가 더 치명적인지를 PM이 판단해야 한다고 설명한다. 예를 들어 스팸 필터에서는 정상 메일을 스팸으로 분류하는 FP가 더 심각하고, 사기 탐지에서는 사기를 놓치는 FN이 더 심각하다.

ROC 곡선과 AUC

ROC 곡선은 임계값을 변경함에 따라 참 양성률과 거짓 양성률이 어떻게 변하는지를 시각화한다. AUC(Area Under the Curve)는 곡선 아래 면적으로, 1에 가까울수록 모델의 구분 능력이 좋다.

AUC 0.9 이상: 우수한 모델
AUC 0.7~0.9: 적절한 모델
AUC 0.5: 무작위 추측과 동일

OKR 프레임워크

저자는 AI 프로덕트의 목표 설정에 OKR(Objectives and Key Results)을 활용하는 방법을 다룬다.

KPI에서 OKR로

KPI는 현재 상태를 측정하고, OKR은 미래 목표를 설정한다. 저자는 KPI를 먼저 정립한 뒤 OKR로 연결하는 프로세스를 제안한다.

AI 프로덕트 OKR 예시

Objective: AI 추천 시스템의 사용자 신뢰도를 높인다

Key Result	현재	목표
AI 추천 클릭률	12%	20%
추천 결과 피드백 중 "도움됨" 비율	45%	65%
추천 기능 주간 재사용률	30%	50%
모델 정확도	78%	85%

Tip

저자는 AI 프로덕트의 OKR에서 모델 성능 지표(정확도, 지연 시간 등)만 Key Result로 설정하는 실수를 경계한다. 모델 정확도가 85%에서 90%로 올라가도 사용자 만족도가 변하지 않을 수 있다. 반드시 모델 지표와 프로덕트 지표를 함께 Key Result에 포함해야 한다.

지표	설명	측정 방법
DAU/MAU	일간/월간 활성 사용자	고유 사용자 로그인 수
세션 시간	한 번의 방문에서 머무는 시간	평균 세션 길이
기능 사용률	특정 AI 기능을 사용하는 비율	AI 기능 트리거 수 / 전체 세션
반복 사용률	같은 기능을 반복적으로 사용하는 비율	7일 이내 재사용 비율

만족도 지표

지표	설명	수집 방법
NPS	순추천지수	정기 설문 (0-10점)
CSAT	고객 만족도	인터랙션 후 즉시 설문
CES	고객 노력도	작업 완료 후 난이도 평가
피드백 비율	부정적 피드백 비율	좋아요/싫어요 버튼, 신고

채택률 지표

지표	설명
활성화율	가입 후 핵심 기능을 처음 사용한 비율
온보딩 완료율	AI 기능 설정 과정을 끝까지 완료한 비율
AI 기능 옵트인율	AI 기능을 자발적으로 활성화한 비율
이탈률	AI 기능 사용 후 프로덕트를 떠난 비율

시스템 상태 지표

프로덕트를 뒷받침하는 인프라의 안정성과 성능을 측정한다.

지표	설명	기준값 예시
가동 시간(Uptime)	서비스가 정상 운영되는 시간 비율	99.9% (월 43분 다운타임)
지연 시간(Latency)	요청부터 응답까지 걸리는 시간	P50: 200ms, P99: 1s
처리량(Throughput)	단위 시간당 처리 가능한 요청 수	초당 1,000 요청
오류율(Error Rate)	전체 요청 중 오류가 발생한 비율	0.1% 미만
확장성(Scalability)	부하 증가 시 성능 유지 능력	피크 대비 3배까지

AI 프록시 지표

모델 자체의 성능을 측정하는 지표다. PM이 직접 계산할 필요는 없지만, 각 지표의 의미와 프로덕트에 미치는 영향을 이해해야 한다.

분류 모델 지표

지표	정의	의미
정확도(Accuracy)	전체 예측 중 맞은 비율	불균형 데이터에서는 오해의 소지
정밀도(Precision)	양성 예측 중 실제 양성 비율	거짓 양성(False Positive) 비용이 클 때 중요
재현율(Recall)	실제 양성 중 양성으로 예측한 비율	거짓 음성(False Negative) 비용이 클 때 중요
F1 Score	정밀도와 재현율의 조화 평균	두 지표의 균형

혼동 행렬

혼동 행렬은 모델의 예측 결과를 네 가지 범주로 분류한다.

	실제 양성	실제 음성
예측 양성	TP (참 양성)	FP (거짓 양성)
예측 음성	FN (거짓 음성)	TN (참 음성)

ROC 곡선과 AUC

AUC 0.9 이상: 우수한 모델
AUC 0.7~0.9: 적절한 모델
AUC 0.5: 무작위 추측과 동일

Key Result	현재	목표
AI 추천 클릭률	12%	20%
추천 결과 피드백 중 "도움됨" 비율	45%	65%
추천 기능 주간 재사용률	30%	50%
모델 정확도	78%	85%

Tip

6장: 지표와 목표 설정

지표의 세 가지 계층

프로덕트 상태 지표

참여도 지표

만족도 지표

채택률 지표

시스템 상태 지표

AI 프록시 지표

분류 모델 지표

혼동 행렬

ROC 곡선과 AUC

OKR 프레임워크

KPI에서 OKR로

AI 프로덕트 OKR 예시

정리

댓글

6장: 지표와 목표 설정

지표의 세 가지 계층

프로덕트 상태 지표

참여도 지표

만족도 지표

채택률 지표

시스템 상태 지표

AI 프록시 지표

분류 모델 지표

혼동 행렬

ROC 곡선과 AUC

OKR 프레임워크

KPI에서 OKR로

AI 프로덕트 OKR 예시

정리

댓글