멀티모달(Multi Modal) AI에 대한 이해

모달리티(Modality)는 사전상 뜻이 ‘양식’ 또는 ‘양상’을 의미합니다. 즉 어떤 형태로 나타나는 현상이나 그것을 받아들이는 방식을 말합니다. 여기서 멀티모달(Multi Modal)이 의미하는 것은 여러 양상들을 말하는 것이며, 사람이 시각, 청각 등의 오감을 이용하여 사물에 대한 정보를 파악하고 받아들이는 것을 의미합니다.

즉, 멀티모달 AI는, 인간이 사물의 양상을 다양한 감각기관으로 받아들이는 것처럼, 해당 역할이 가능한 여러 인터페이스를 통해 서로 다른 감각이나 유형의 정보를 컴퓨터가 학습하여, 사고할 수 있게 만든 AI를 멀티모달(Multi Modal) AI라고 합니다.

멀티모달 AI와 기존 인공지능(AI)의 차이

‘기존 인공지능(AI)’이라기보단, “기계학습(Muchine Learning) 혹은 딥러닝(Deep Learning)에 어떤 데이터(모달)를 학습시키는지”의 차이로 이해할 수 있습니다. 이른바 ‘기존 인공지능(AI)’은 텍스트, 자연어를 이해하기 위해 웹(Web)상에 있는 텍스트(Text Data)를 이해하는 것에 초점이 맞춰져 있습니다. 사람이 주고받는 언어를 이해하는 자연어 분석(NLP)을 전제로 명제와 추론하는 것을 전제로 개발되어져 왔습니다. 하지만, ‘기존 인공지능(AI)’는 단어가 의미하는 것의 생김새, 존재 자체의 형태 등을 이해할 수 없었습니다. 따라서 인간과 유사한 방식으로 사고할 수 있도록 멀티모달 AI가 등장한 것입니다.

이러한 멀티모달 AI는 대표적으로 4가지의 분야로 나뉩니다.

1) 이미지 샙션 생성(Image Captioning)

이미지의 시각적 특징을 이해하고 설명 생성

2) 시각적 질문 응답(Visual Question Answering)

이미지와 관련된 질문의 답을 자연어로 생성

3) 이미지 분류 및 검색(Image Classification and Retrieval)

이미지에 대한 텍스트 설명이나 태그를 활용해 이미지 분류 또는 특정 텍스트 쿼리에 대한 이미지를 검색

4) 감정 분석(Emotion Analysis)

이미지와 관련된 얼굴 표정 및 텍스트 데이터를 결합하여 정확한 감정 분석 수행

대표적인 멀티모달에 해당하는 OpenAI의 ‘달리(DALL-E 2)‘

대표적인 멀티모달(Multi Modal)에 해당하는 OpenAI 사의 ‘달리(DALL-E 2)’

OpenAI에서는 달리(DALL-E 2)개발에 대해 ‘AI 시스템이 인류를 어떻게 보고 이해하는지 도움 되도록 하고자’멀티모달 AI를 활용해 만들었다고 밝혔습니다. 아래 이미지를 보면 Open AI사에서 예시로 DALL-E 3에 대해 보여주면서 프롬프트(PROMPT)를 통해 입력된 단어를 멀티모달 AI 기반으로 해석하여 이미지로 정확히 보여주는 것을 볼 수 있습니다.

Example DALL-E 3 Generations | OpenAI Platform