본문 바로가기
  • 우당탕탕속의 잔잔함
Technology/Research

[AI] Multi Modal에 대한 정의 및 예시

by zpstls 2023. 1. 10.
반응형

 

 

이번 포스트에서는 Multi Modality란 무엇인지에 알아보고자 합니다.

비교적 가벼운 내용이므로 쉽게 접근할 수 있을 것이라 생각됩니다.

 

Multi-Modal 이란 Multi Modality의 줄임말입니다. 한국어로 쓰면 여러 개의 모달리티라는 의미를 가지는데, 이때 Modality는 시각, 청각, 촉각, 미각, 후각 등 각각의 감각 채널을 의미합니다. 조금 넓혀서 말하면, 어떤 형태로 나타나는 현상이나 받아들이는 방식을 의미합니다.

 

IT 분야에서는 과거, 마우스와 키보드, 화면, 음성 등의 여러 채널을 이용한 프로그램을 멀티 모달리티라고 명하기도 했습니다. 하지만 4차 산업 시대를 맞이하면서 멀티 모달리티의 의미가 조금 바뀌게 되었습니다.

최근에는 인간의 감각(시각, 청각 등)과 같은 여러 인터페이스를 통해 정보를 주고받고, 이렇게 다양한 채널의 모달리티를 동시에 받아들여 학습과 사고를 할 수 있는 AI 프로그램을 멀티 모달리티라고 부릅니다.

 

AI가 일반인들 사이에서도 떠오르던 초반, 약 2015년도쯤에 AI과 관련된 강의를 들었을 때 교수님께서 "현재 AI의 한계는 딱 그 일만 처리한다는 것이다."라고 말씀하셨던 것이 기억납니다.

이 말과 일맥상통하게, 기존에 만들었던, 그리고 지금도 만들고는 있는 AI는 어떠한 한 가지 작업을 잘 수행하는 것에 중점을 두었습니다. 예를 들면 한국어를 입력하면 해당 Text를 영어로 번역해주는 것, 어떠한 Image를 입력하면 해당 Image에 어떠한 Object가 포함되어있는지 반환하는 것 등을 생각해볼 수 있을 것입니다. 

 

그러나 이와 같은 AI는 분명히 한계가 존재합니다. 그 한계가 확연히 들어나는 분야는 자연어 처리 분야입니다.

요즘 시스템에 많이 도입되는 챗봇이나 어시스턴스를 생각해봅시다.

현재의 챗봇이나 어시스턴스들은 어떠한 내용을 검색하는 것이 주된 기능입니다. 때문에 문장의 내용을 이해하고 이에 따른 결과를 보여주기보다는 문장에 포함된 단어를 이용해 답변을 주는 형태이며, 이마저도 검색할 수 없는 단어가 등장하면 결과를 반환할 수 없게 됩니다.

무엇인가를 물어보았을 때 답변이 성의 없어 보이는 것과 같은 느낌이 들지 않는 것이 이 때문이기도 합니다.

 

이와 같이 데이터 처리나 통계, 검색을 통해 결과를 반환하는 것은 가능하지만 인간과 유사하게 사고(텍스트를 통해 형태를 유추하거나 문장의 속뜻을 파악하는 등의 사고)할 수 없습니다.

때문에 AI를 통해 좀 더 자연스럽고 인간과 더 유사한 일을 처리할 수 있도록 하기 위해서는 멀티모달이 필수적이게 되었습니다.

 

 

 

 

 

비교적 최근 발표된 멀티모달 AI는 openAI의 DALL-E2, LG의 엑사원, Intel의 webQA 등이 있습니다.

openAI의 DALL-E2는 문장을 입력하면 해당 문장이 어떠한 형태의 Image로 이해되는지 보여줍니다.

DALL-E2의 사고 순서를 아주 간단하게 생각해보면 다음과 같을 것입니다.

 

Text 인식 + Text 내용 이해 + Text에 맞도록 이미지 생성 + Text 내용에 따른 객체 검출 및 분리 + ETC...

 

DALL-E2에게 사용자가 "덩크 슛하고 있는 원숭이를 앤디 워홀 스타일로 만들어 줘"라고 한다면 DALL-E2는 수많은 원숭이와 농구공, 앤디 워홀의 그림 등을 학습해서 이러한 것이구나를 형태로 이해하고 이 지식을 통해 어떠한 이미지에서 그 객체를 분류합니다. 그리고 덩크 슛은 어떻게 하는지, 원숭이는 어떻게 동작하는지, 농구공은 어떻게 사용되는지, 앤디 워홀의 화풍이 어떠한지를 이해합니다. 이를 통해 결과물을 반환합니다.

 

LG의 엑사원은 텍스트와 이미지 양방향 소통이 가능한 AI로, 이미지를 텍스트로 설명해주거나 텍스트를 입력하면 이에 맞는 이미지를 만들어주는 기능을 수행합니다. 또한 이 AI는 한국어에 특화된 모델입니다. 다른 AI 모델이 주로 영어에 특화되어 있다는 점과는 차별점이 있죠. 이 외에도 고객의 피드백을 분석하는 기능, 요리 보조, AI Bank, 문제 추천 서비스 등과 같이 다양한 분야에서 다양한 기능으로 활용될 수 있다고 합니다.

 

Intel의 WebQA는 인터넷상에서 Snippets와 Images를 검색할 때, 인간과 비슷한 스타일로 찾을 수 있도록 하는 시스템입니다. 예를 들면, 사용자가 "오스트리아 Domplatz의 Okatoberfest와 일본 Hiratsuka의 타나바타 축제 중에서 배경에 성을 찾을 수 있는 축제는 무엇인가?"라고 질문하면 AI가 "오스트리아 Domplatz의 Oktoberfest입니다."라고 답변하거나 Trogon Surrucura(= 특정 새)의 눈 색상이 무엇인지 물으면 답변해주는 시스템입니다.

 

이와 같이 Text를 인식하는 일, 이미지 속에서 객체를 검출하는 일, 이미지를 생성하는 일 등 기존의 AI들이 단일적으로 수행하던 것들을 모두 합치고 상호작용을 통해 통합된 결과를 반환하는 것이 바로 Multi Modality입니다.

 

 

 

 

 

이러한 Multi Modality가 발전되면 현재 AI가 가진 약간 애매모호한 성능에서 벗어날 수 있을 것입니다.

 

예를 들면 지금 이미지 검색 엔진에 파손된 자동차 이미지를 입력하면 이와 비슷한 이미지들(파손된 자동차 또는 그냥 어떠한 자동차 또는 자동차 색상과 비슷한 어떠한 객체가 포함된 이미지들)이 쭉 반환될 것입니다. 

그러나 Multi Modality가 적용된 AI에서는 해당 차량의 모델 판별, 차량 조회, 차주의 보험 상품 검색, 차량의 피해정도 예측, 수리 견적 측정 등의 작업을 수행할 수 있을 것입니다. 

 

영화에서 보던 AI도 실생활에서 볼 수 있을 것입니다. 범인 얼굴 영상을 입력하면 해당 인물이 몇 시에 어디에서 어디로 이동했는지 쫙 나오는 거죠. 현재는 CCTV를 확보해서 일일이 돌려보면서 유추하고 판단하는데, 이러한 작업이 자동화가 된다면 아주 편해질 것입니다.

 

이렇게 Multi Modality는 순기능이 많습니다. 하지만 역기능도 물론 있겠죠?

앞서 예시를 들면서 잠깐 언급했습니다. 파손된 자동차 이미지를 입력하면 차량 조회, 보험 상품 검색 등이 자동으로 리스트업 될 것이라고요.

현재는 해당 기관에서 개인의 동의하에 개인정보를 조회할 수 있습니다. 그러나 이미지만 입력하면 공개 정보든 개인 정보든 추출할 수 있다면 정보 보안 측면에서 굉장히 위험해질 수밖에 없습니다. 나름 여러 방면으로 데이터를 지키기 위해 노력하지만 지금도 기업의 고객 정보가 유출되거나 공개되는 일이 비일비재한데 검색이 더 쉬워진다면 문제가 더 커질 수도 있을 것입니다.

 

또 다른 예로, Deep Fake와 같은 가짜 데이터가 범죄에 활용되거나 시각, 청각, 정서적으로 나쁜 결과물을 만들어내는 것에 대한 부작용도 있습니다. 나름의 규제를 통해 역기능을 최소화하려고 하고 있으나, 어딜 가나 이를 악용하는 사례는 나오기 마련이죠.

 

 

AI와 공존하는 미래는 AI를 개발한 사람과 그리고 개발된 AI와의 상호 책임이 필수가 되는 시대일 것입니다. 이 둘의 균형 속에서 꾸준히 발전해 나가야 할 것입니다.

 

이렇게 Multi Modality가 무엇인지, 이의 예시는 무엇인지, 순기능과 역기능은 무엇 일지에 대해 다뤄보았습니다.

이번 포스팅은 여기서 마무리하도록 하겠습니다.

 

 

반응형

'Technology > Research' 카테고리의 다른 글

[AI] Google Bard 사용  (1) 2023.05.19
[AI] ChatGPT 사용 및 원리  (0) 2023.02.10
[Sound Spleeter] Deep Learning 기반 악기 소리 분리 기술  (0) 2023.01.05

댓글