미식가의 개발 일기

멀티모달 본문

ML, DL

멀티모달

대체불가 핫걸 2025. 5. 7. 10:31

1️⃣ 멀티모달 AI란 무엇인가?

🔔 멀티모달(Multimodal)이란?

멀티모달 AI는 두 가지 이상의 서로 다른 데이터 유형(예: 텍스트 + 이미지, 텍스트 + 음성 등)을 동시에 이해하고 처리하는 인공지능 기술이다. 사람이 사진을 보며 상황을 이해하고 말하거나 글을 쓸 수 있듯이, 멀티모달 AI도 다양한 감각(Modalities)을 통합적으로 다루는 것을 목표로 한다.

 

 

2️⃣ OpenAI CLIP

🔔 CLIP이란?

이미지와 텍스트를 동시에 매칭할 수 있도록 학습된 멀티모달 AI 모델

CLIP(Contrastive Language–Image Pretraining)은 OpenAI에서 개발한 강력한 멀티모달 모델로, 이미지와 텍스트 간의 의미적 유사성을 학습하여 같은 의미를 가진 이미지와 텍스트를 가까운 벡터 공간에 위치시키는 방식으로 동작한다.

 

🔔 작동 원리

  1. 이미지 인코더: ResNet 또는 ViT(Vision Transformer)를 사용해 이미지 입력을 벡터로 변환한다.
  2. 텍스트 인코더: Transformer 기반의 구조로 텍스트를 벡터로 변환한다.
  3. 컨트라스티브 학습: 이미지와 텍스트가 쌍으로 주어질 때, 정답 쌍은 유사도 높게, 오답 쌍은 유사도 낮게 학습한다.

출처: https://openai.com/index/clip/

 

🔔 Zero-shot Learning

CLIP의 가장 혁신적인 기능 중 하나는 Zero-shot Learning이다.

이는 사전에 특정 클래스를 학습하지 않아도, 텍스트 프롬프트만으로 새로운 클래스를 예측할 수 있다는 것을 의미한다.

텍스트 프롬프트: "A photo of a cat"
모델은 여러 이미지 중 고양이 사진과 가장 유사한 벡터를 찾아낸다.

 

3️⃣ LLaVA (Large Language and Vision Assistant)

🔔 LLaVA란?

이미지 기반 자연어 생성을 할 수 있도록 학습된 멀티모달 AI 모델

출처: https://llava-vl.github.io/

LLaVA는 텍스트와 이미지를 결합하여 질문에 답변하거나 설명을 생성하는 데 최적화된 멀티모달 모델이다.
최근 다양한 응용 분야에서 빠르게 주목받고 있다.

 

🔔 작동 원리

  1. 비전 인코더 (Vision Encoder)
    • CLIP의 이미지 인코더를 활용하여 이미지를 고차원 임베딩 벡터로 변환한다.
  2. 프로젝션 레이어 (Projection Layer)
    • 이미지 임베딩을 언어 모델이 이해할 수 있도록 변환한다.
    • 주로 MLP (다층 퍼셉트론) 또는 선형 레이어 (Linear Layer)를 사용한다.
  3. 언어 모델 (Large Language Model)
    • GPT 계열 언어모델을 사용해 이미지에 대한 설명, 질문 응답 등을 자연어로 출력한다.

 

🔔 응용 예시

  • 이미지 캡셔닝 (이미지를 설명하는 텍스트 생성)
  • VQA (Visual Question Answering, 이미지 기반 질문 응답)
  • 시각적 스토리텔링

 

4️⃣ 마무리

멀티모달 AI는 단일 모달리티에 국한되지 않고, 인간처럼 다양한 감각 정보를 동시에 이해하고 반응하는 인공지능을 만드는 핵심 기술이다.
CLIPLLaVA는 그 중심에서 멀티모달 AI의 가능성을 실현하고 있으며,
특히 Zero-shot 또는 VQA와 같은 고도화된 기능은 AI의 활용 범위를 획기적으로 확장시키고 있다.

반응형