| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 백준
- 케이티 에이블스쿨 6기 java
- 앙상블
- 케이티 에이블스쿨 6기
- SQLD
- 머신러닝
- 네트워크
- kt aivle school
- 케이티 에이블스쿨
- 구현
- 알고리즘
- 데이터 프레임
- KT 에이블스쿨
- 에이블 기자단
- kt 에이블스쿨 6기 미니 프로젝트
- 판다스
- 케이티 에이블스쿨 6기 ai
- 엘라스틱서치
- kt 에이블스쿨 기자단
- 케이티 에이블스쿨 기자단
- kt 에이블스쿨 6기
- KT AIVLE
- 티스토리챌린지
- 프로그래머스
- ElasticSearch
- kt 에이블스쿨 6기 빅프로젝트
- kt 에이블스쿨 6기 ai
- 케이티 에이블스쿨 6기 후기
- 파이썬
- 오블완
- Today
- Total
미식가의 개발 일기
멀티모달 본문
1️⃣ 멀티모달 AI란 무엇인가?
🔔 멀티모달(Multimodal)이란?
멀티모달 AI는 두 가지 이상의 서로 다른 데이터 유형(예: 텍스트 + 이미지, 텍스트 + 음성 등)을 동시에 이해하고 처리하는 인공지능 기술이다. 사람이 사진을 보며 상황을 이해하고 말하거나 글을 쓸 수 있듯이, 멀티모달 AI도 다양한 감각(Modalities)을 통합적으로 다루는 것을 목표로 한다.
2️⃣ OpenAI CLIP
🔔 CLIP이란?
이미지와 텍스트를 동시에 매칭할 수 있도록 학습된 멀티모달 AI 모델
CLIP(Contrastive Language–Image Pretraining)은 OpenAI에서 개발한 강력한 멀티모달 모델로, 이미지와 텍스트 간의 의미적 유사성을 학습하여 같은 의미를 가진 이미지와 텍스트를 가까운 벡터 공간에 위치시키는 방식으로 동작한다.
🔔 작동 원리
- 이미지 인코더: ResNet 또는 ViT(Vision Transformer)를 사용해 이미지 입력을 벡터로 변환한다.
- 텍스트 인코더: Transformer 기반의 구조로 텍스트를 벡터로 변환한다.
- 컨트라스티브 학습: 이미지와 텍스트가 쌍으로 주어질 때, 정답 쌍은 유사도 높게, 오답 쌍은 유사도 낮게 학습한다.
🔔 Zero-shot Learning
CLIP의 가장 혁신적인 기능 중 하나는 Zero-shot Learning이다.
이는 사전에 특정 클래스를 학습하지 않아도, 텍스트 프롬프트만으로 새로운 클래스를 예측할 수 있다는 것을 의미한다.
텍스트 프롬프트: "A photo of a cat"
모델은 여러 이미지 중 고양이 사진과 가장 유사한 벡터를 찾아낸다.
3️⃣ LLaVA (Large Language and Vision Assistant)
🔔 LLaVA란?
이미지 기반 자연어 생성을 할 수 있도록 학습된 멀티모달 AI 모델

LLaVA는 텍스트와 이미지를 결합하여 질문에 답변하거나 설명을 생성하는 데 최적화된 멀티모달 모델이다.
최근 다양한 응용 분야에서 빠르게 주목받고 있다.
🔔 작동 원리
- 비전 인코더 (Vision Encoder)
- CLIP의 이미지 인코더를 활용하여 이미지를 고차원 임베딩 벡터로 변환한다.
- 프로젝션 레이어 (Projection Layer)
- 이미지 임베딩을 언어 모델이 이해할 수 있도록 변환한다.
- 주로 MLP (다층 퍼셉트론) 또는 선형 레이어 (Linear Layer)를 사용한다.
- 언어 모델 (Large Language Model)
- GPT 계열 언어모델을 사용해 이미지에 대한 설명, 질문 응답 등을 자연어로 출력한다.
🔔 응용 예시
- 이미지 캡셔닝 (이미지를 설명하는 텍스트 생성)
- VQA (Visual Question Answering, 이미지 기반 질문 응답)
- 시각적 스토리텔링
4️⃣ 마무리
멀티모달 AI는 단일 모달리티에 국한되지 않고, 인간처럼 다양한 감각 정보를 동시에 이해하고 반응하는 인공지능을 만드는 핵심 기술이다.
CLIP과 LLaVA는 그 중심에서 멀티모달 AI의 가능성을 실현하고 있으며,
특히 Zero-shot 또는 VQA와 같은 고도화된 기능은 AI의 활용 범위를 획기적으로 확장시키고 있다.
'ML, DL' 카테고리의 다른 글
| Claude에 Firecrawl로 크롤링 기능 추가하기 (0) | 2025.05.07 |
|---|---|
| RAG: LLM의 한계를 넘은 검색하는 인공지능 (1) | 2025.05.07 |
| NLP, Transformer, LLM - 자연어 처리부터 대형 언어 모델까지 (1) | 2025.05.05 |
| MLOps: 머신러닝과 DevOps의 만남 (0) | 2025.04.24 |
| 얼굴 인식을 위한 딥러닝 모델: YOLO vs YOLO-CLS (0) | 2024.11.02 |