본문으로 건너뛰기
Kreath Archive
TechProjectsBooksAbout
TechProjectsBooksAbout

내비게이션

  • Tech
  • Projects
  • Books
  • About
  • Tags

카테고리

  • AI / ML
  • 웹 개발
  • 프로그래밍
  • 개발 도구

연결

  • GitHub
  • Email
  • RSS
© 2026 Kreath Archive. All rights reserved.Built with Next.js + MDX
홈TechProjectsBooksAbout
← 전체 글

멀티모달 AI 애플리케이션

11편총 130분 읽기6,156자
  1. 1

    1장: 멀티모달 AI의 등장과 핵심 개념

    멀티모달 AI의 정의, 발전 역사, 핵심 아키텍처 패턴, 그리고 주요 모델(GPT-4o, Claude, Gemini)의 멀티모달 능력을 조망합니다.

    2026년 2월 7일·12분 읽기
  2. 2

    2장: Vision-Language 모델 아키텍처

    CLIP에서 GPT-4o까지, Vision-Language 모델의 핵심 아키텍처를 분석합니다. 이미지 인코딩, 크로스모달 정렬, 통합 모델의 설계 원리를 다룹니다.

    2026년 2월 9일·12분 읽기
  3. 3

    3장: 이미지 이해와 시각적 질의응답

    멀티모달 AI를 활용한 이미지 이해의 실전 기법 — 시각적 질의응답, 이미지 분석 프롬프트 설계, 정확도 향상 전략, 그리고 다양한 활용 패턴을 다룹니다.

    2026년 2월 11일·13분 읽기
  4. 4

    4장: 문서 이해와 OCR 통합

    멀티모달 AI를 활용한 문서 이해 기법 — PDF 분석, 표 추출, 양식 처리, OCR 통합, 그리고 문서 처리 파이프라인 설계를 실전 중심으로 다룹니다.

    2026년 2월 13일·12분 읽기
  5. 5

    5장: 음성 AI — STT, TTS, 실시간 음성 대화

    음성 인식(STT), 음성 합성(TTS), 실시간 음성 대화 시스템의 원리와 구현을 다룹니다. Whisper, OpenAI Audio API, 음성 에이전트 설계 패턴을 배웁니다.

    2026년 2월 15일·11분 읽기
  6. 6

    6장: 비디오 이해와 분석

    멀티모달 AI를 활용한 비디오 이해 기법 — 프레임 추출 전략, 시간적 추론, 영상 요약, 그리고 실시간 비디오 분석 파이프라인 설계를 다룹니다.

    2026년 2월 17일·12분 읽기
  7. 7

    7장: 멀티모달 임베딩과 크로스모달 검색

    CLIP 기반 멀티모달 임베딩의 원리, 텍스트-이미지 크로스모달 검색, 통합 벡터 스토어 설계, 그리고 실전 멀티모달 검색 시스템 구축을 다룹니다.

    2026년 2월 19일·11분 읽기
  8. 8

    8장: 멀티모달 RAG 시스템 설계

    텍스트, 이미지, 표, 차트 등 다양한 모달리티를 통합하는 멀티모달 RAG 시스템의 설계와 구현을 다룹니다. ColPali, 비전 기반 검색, 문서 파싱 전략을 배웁니다.

    2026년 2월 21일·13분 읽기
  9. 9

    9장: 멀티모달 에이전트 구축

    시각적 이해 능력을 갖춘 AI 에이전트의 설계와 구현 — 화면 상호작용 에이전트, 멀티모달 도구 호출, Computer Use, 그리고 실전 에이전트 패턴을 다룹니다.

    2026년 2월 23일·12분 읽기
  10. 10

    10장: 프로덕션 아키텍처와 최적화

    멀티모달 AI 시스템의 프로덕션 배포 전략 — 서빙 인프라, 비용 관리, 지연 시간 최적화, 캐싱, 모니터링, 그리고 확장성 설계를 다룹니다.

    2026년 2월 25일·11분 읽기
  11. 11

    11장: 실전 프로젝트 — 멀티모달 AI 애플리케이션 구축

    시리즈 전체의 기법을 종합하여 멀티모달 문서 분석 시스템을 설계하고 구현합니다. 이미지, 표, 차트를 이해하는 RAG 기반 Q&A 시스템을 구축합니다.

    2026년 2월 27일·11분 읽기