//
AI에서 데이터는 학습의 원재료이자 성능을 좌우하는 핵심 요소다. 저자는 데이터를 여러 기준으로 분류하며, 각 유형이 AI에서 어떻게 활용되는지를 설명한다.
| 유형 | 설명 | 예시 |
|---|---|---|
| 정형 데이터 | 행과 열로 구조화된 데이터 | 데이터베이스, 스프레드시트 |
| 비정형 데이터 | 고정된 형식이 없는 데이터 | 이미지, 텍스트, 음성 |
| 반정형 데이터 | 일부 구조를 가진 데이터 | JSON, XML, HTML |
전통적인 데이터 분석은 정형 데이터를 주로 다루었지만, 딥러닝의 발전으로 비정형 데이터를 직접 처리할 수 있게 되면서 AI의 활용 범위가 크게 확장되었다.
머신러닝에서 데이터는 학습 목적에 따라 훈련 데이터, 검증 데이터, 테스트 데이터로 나뉜다. 훈련 데이터로 모델을 학습시키고, 검증 데이터로 하이퍼파라미터를 조정하며, 테스트 데이터로 최종 성능을 평가하는 3단계 구조가 기본이다.
데이터 분석의 핵심은 원시 데이터에서 의미 있는 패턴을 추출하는 것이다. 저자는 분석의 단계를 다음과 같이 정리한다.
전처리 단계가 전체 작업량의 상당 부분을 차지한다는 점은 실무에서 자주 언급되는 사실이다. "데이터 과학자의 80%의 시간은 데이터 정제에 쓰인다"는 말이 있을 정도로, 깨끗한 데이터를 확보하는 것이 모델 성능에 결정적인 영향을 미친다.
빅데이터의 등장은 AI 발전의 핵심 동력 중 하나였다. 인터넷과 모바일 기기의 보급으로 데이터의 양이 폭발적으로 증가했고, 이는 딥러닝이 성능을 발휘할 수 있는 환경을 만들어주었다.
빅데이터의 특성은 흔히 3V로 요약된다.
| 특성 | 설명 |
|---|---|
| Volume(규모) | 테라바이트, 페타바이트 단위의 대용량 데이터 |
| Velocity(속도) | 실시간으로 빠르게 생성되는 데이터 |
| Variety(다양성) | 텍스트, 이미지, 로그 등 다양한 형태의 데이터 |
딥러닝 모델은 데이터가 많을수록 성능이 향상되는 경향이 있다. 전통적인 머신러닝 알고리즘은 데이터가 일정 수준을 넘으면 성능 향상이 정체되지만, 딥러닝은 대규모 데이터에서 지속적으로 성능이 개선된다. 이 차이가 빅데이터 시대에 딥러닝이 주목받게 된 근본적인 이유다.
저자는 데이터를 분석하는 대표적인 모델들을 소개한다. 회귀 분석, 분류, 클러스터링 등 기본적인 분석 기법의 개념을 설명하며, 이것이 이후 3부의 머신러닝 내용으로 자연스럽게 연결된다.
데이터 분석 모델은 크게 두 가지 접근법으로 나뉜다.
2부는 AI를 공부하기 전에 반드시 이해해야 할 데이터의 기초를 다진다. "좋은 모델보다 좋은 데이터가 중요하다"는 AI 분야의 격언이 있듯이, 데이터의 품질과 양이 AI 시스템의 성능을 결정짓는 가장 근본적인 요인이라는 점을 이 장을 통해 확인할 수 있다.