//
저자는 AI 프로덕트가 추적해야 할 지표를 세 가지 계층으로 구분한다. 각 계층은 서로 다른 질문에 답한다.
사용자가 프로덕트에서 실제로 가치를 얻고 있는지를 측정하는 지표다.
| 지표 | 설명 | 측정 방법 |
|---|---|---|
| DAU/MAU | 일간/월간 활성 사용자 | 고유 사용자 로그인 수 |
| 세션 시간 | 한 번의 방문에서 머무는 시간 | 평균 세션 길이 |
| 기능 사용률 | 특정 AI 기능을 사용하는 비율 | AI 기능 트리거 수 / 전체 세션 |
| 반복 사용률 | 같은 기능을 반복적으로 사용하는 비율 | 7일 이내 재사용 비율 |
참여도 지표에서 주의할 점이 있다. AI 프로덕트에서 높은 세션 시간이 반드시 좋은 것은 아니다. 사용자가 AI의 응답을 이해하지 못해 헤매고 있는 것일 수도 있기 때문이다. 저자는 참여도 지표를 만족도 지표와 반드시 함께 해석해야 한다고 강조한다.
| 지표 | 설명 | 수집 방법 |
|---|---|---|
| NPS | 순추천지수 | 정기 설문 (0-10점) |
| CSAT | 고객 만족도 | 인터랙션 후 즉시 설문 |
| CES | 고객 노력도 | 작업 완료 후 난이도 평가 |
| 피드백 비율 | 부정적 피드백 비율 | 좋아요/싫어요 버튼, 신고 |
| 지표 | 설명 |
|---|---|
| 활성화율 | 가입 후 핵심 기능을 처음 사용한 비율 |
| 온보딩 완료율 | AI 기능 설정 과정을 끝까지 완료한 비율 |
| AI 기능 옵트인율 | AI 기능을 자발적으로 활성화한 비율 |
| 이탈률 | AI 기능 사용 후 프로덕트를 떠난 비율 |
프로덕트를 뒷받침하는 인프라의 안정성과 성능을 측정한다.
| 지표 | 설명 | 기준값 예시 |
|---|---|---|
| 가동 시간(Uptime) | 서비스가 정상 운영되는 시간 비율 | 99.9% (월 43분 다운타임) |
| 지연 시간(Latency) | 요청부터 응답까지 걸리는 시간 | P50: 200ms, P99: 1s |
| 처리량(Throughput) | 단위 시간당 처리 가능한 요청 수 | 초당 1,000 요청 |
| 오류율(Error Rate) | 전체 요청 중 오류가 발생한 비율 | 0.1% 미만 |
| 확장성(Scalability) | 부하 증가 시 성능 유지 능력 | 피크 대비 3배까지 |
저자는 AI 프로덕트에서 특히 지연 시간이 중요하다고 강조한다. LLM 기반 서비스에서 응답까지 10초 이상 걸리면 사용자 이탈이 급격히 증가한다. 스트리밍 응답, 캐싱, 경량 모델 활용 등의 전략을 PM이 이해하고 있어야 한다.
모델 자체의 성능을 측정하는 지표다. PM이 직접 계산할 필요는 없지만, 각 지표의 의미와 프로덕트에 미치는 영향을 이해해야 한다.
| 지표 | 정의 | 의미 |
|---|---|---|
| 정확도(Accuracy) | 전체 예측 중 맞은 비율 | 불균형 데이터에서는 오해의 소지 |
| 정밀도(Precision) | 양성 예측 중 실제 양성 비율 | 거짓 양성(False Positive) 비용이 클 때 중요 |
| 재현율(Recall) | 실제 양성 중 양성으로 예측한 비율 | 거짓 음성(False Negative) 비용이 클 때 중요 |
| F1 Score | 정밀도와 재현율의 조화 평균 | 두 지표의 균형 |
혼동 행렬은 모델의 예측 결과를 네 가지 범주로 분류한다.
| 실제 양성 | 실제 음성 | |
|---|---|---|
| 예측 양성 | TP (참 양성) | FP (거짓 양성) |
| 예측 음성 | FN (거짓 음성) | TN (참 음성) |
저자는 프로덕트 맥락에서 어떤 오류가 더 치명적인지를 PM이 판단해야 한다고 설명한다. 예를 들어 스팸 필터에서는 정상 메일을 스팸으로 분류하는 FP가 더 심각하고, 사기 탐지에서는 사기를 놓치는 FN이 더 심각하다.
ROC 곡선은 임계값을 변경함에 따라 참 양성률과 거짓 양성률이 어떻게 변하는지를 시각화한다. AUC(Area Under the Curve)는 곡선 아래 면적으로, 1에 가까울수록 모델의 구분 능력이 좋다.
저자는 AI 프로덕트의 목표 설정에 OKR(Objectives and Key Results)을 활용하는 방법을 다룬다.
KPI는 현재 상태를 측정하고, OKR은 미래 목표를 설정한다. 저자는 KPI를 먼저 정립한 뒤 OKR로 연결하는 프로세스를 제안한다.
Objective: AI 추천 시스템의 사용자 신뢰도를 높인다
| Key Result | 현재 | 목표 |
|---|---|---|
| AI 추천 클릭률 | 12% | 20% |
| 추천 결과 피드백 중 "도움됨" 비율 | 45% | 65% |
| 추천 기능 주간 재사용률 | 30% | 50% |
| 모델 정확도 | 78% | 85% |
저자는 AI 프로덕트의 OKR에서 모델 성능 지표(정확도, 지연 시간 등)만 Key Result로 설정하는 실수를 경계한다. 모델 정확도가 85%에서 90%로 올라가도 사용자 만족도가 변하지 않을 수 있다. 반드시 모델 지표와 프로덕트 지표를 함께 Key Result에 포함해야 한다.
6장은 AI PM이 "무엇을 측정해야 하는가"에 대한 답을 준다. 프로덕트 상태, 시스템 상태, AI 프록시 지표의 세 계층을 이해하고, 이를 OKR로 연결하는 체계를 갖추면 데이터 기반의 의사결정이 가능해진다. 특히 지표를 프로덕트 맥락에서 해석하는 능력이 AI PM의 핵심 역량임을 다시 한번 확인할 수 있다.