[AI 사내 세미나] 말로만 그림을 그릴 수 있을까?

Jun 14, 2021

두 번째 AI 세미나는 LG전자 미래기술센터 인공지능연구소 이정호 리더의 ‘영상 지능’에 대한 강연으로 진행되었습니다. 영상 지능은 카메라 센서를 이용하여 기계가 사람의 눈처럼 사물을 인식하고 이해하는 기술을 뜻합니다. 영상 지능이라는 단어가 다소 생소하게 느껴질 수도 있지만 자동차 번호판 인식 시스템, 자율 주행용 인식 기술, 얼굴 인식, 이미지 자동 분류 등 우리 일상 속에서 이미 많이 활용되고 있습니다.

 

LG전자도 영상 지능 기술을 활발히 개발하고 제품에 적용하고 있습니다. LG 올레드 TV에는 인공지능 프로세서가 탑재되어 화면 속에 등장하는 인물의 얼굴, 텍스트를 인식하여 최적화된 화질을 구현합니다. 또한, LG 인스타뷰 씽큐 냉장고 내부에는 카메라가 장착되어 있어 영상 지능 기술로 냉장고 안에 있는 내용물을 확인하여 만들 수 있는 요리를 추천하고 식재료를 주문하는 기술을 연구하고 있습니다.

이처럼 LG전자는 다양한 영상 지능 기술에 대한 연구를 활발히 진행하고 있는데요. 이번 세미나에서는 영상 지능 중 텍스트를 기반으로 그림을 그리는 기술에 대해 알아보았습니다.

 

2014년 11월, Google이 딥러닝을 활용하여 이미지를 보고 텍스트로 설명하는 기술(A neural image caption generator)을 소개하였습니다. 이 기술은 CNN(Convolution Neural Network)을 사용하여 이미지를 인식하고, RNN(Recurrent Neural Network)을 통해 자연어 표현을 학습하여 텍스트를 생성합니다.

 

AI_Seminar_3-1.jpg

출처: Show and Tell: A Neural Image Caption Generator (https://arxiv.org/pdf/1411.4555.pdf)

 

그렇다면, 텍스트를 보고 이미지를 생성하는 기술은 어떨까요?

우선 딥러닝을 기반으로 이미지를 조작하거나 재구성할 수 있는 기술로 Deep Dream GeneratorStyle Transfer 가 있습니다. 이 두 가지 기술은 원하는 이미지를 다른 스타일의 이미지로 만들어 줍니다. 아래는 Style Transfer로 구성한 이미지를 보여주고 있는데요. 왼쪽의 집 사진과 고흐의 그림을 기반으로 새로운 스타일의 이미지를 생성합니다.

 

style_transfer_gogh.PNG출처: 뉴럴 스타일 트랜스퍼 (http://ml-ko.kr/dl-with-python/8.3-neural-style-transfer.html)

 

텍스트를 이미지로 생성하는 기술은 정말 가능할까요? 가능합니다!

Open AI에서 GPT-3(Generative Pre-trained Transformer)를 활용한 영상 생성 알고리즘 DALL-E를 발표했는데요. DALL-E는 천재 화가 살바도르 달리와 영화 월-E(WALL-E)의 주인공 로봇 월-E의 이름을 따서 붙인 이름이라고 합니다. DALL-E는 컴퓨터 비전과 자연어 처리 기술을 결합하여 텍스트를 인식하여 이미지를 생성할 수 있습니다. 또한 동물이나 사물의 이미지를 인간 시각적으로 표현할 수 있으며, 관련 없는 아이템을 감각적으로 결합하여 새로운 이미지도 만들어낼 수 있습니다.

이 기술은 어떻게 구현된 것일까요? DALL-E에 사용된 GPT-3 기술은 텍스트를 입력하면 다양한 텍스트를 생성하는 딥러닝 언어 모델로써 마치 인간처럼 이야기를 쓸 수 있습니다. DALL-E에서는 텍스트를 생성하는 대신 영상의 픽셀을 생성하도록 GPT-3와 같은 방식으로 학습을 진행하여 이미지를 생성할 수 있습니다.

예를 들어, “개를 산책시키는 아기 무의 일러스트”라고 텍스트를 입력하면 아래와 같은 그림을 만들어내고요.

 

AI_Seminar_3-3.png

출처: 글을 이해하고 그림을 만들어내는 인공지능 DALL-E(달리) (https://blog.naver.com/chandong83/222198993535)

 

“아보카도 모양의 안락의자”라고 텍스트를 입력하면 아래와 같은 그림을 만들어냅니다.

 

AI_Seminar_3-4.png

출처: 글을 이해하고 그림을 만들어내는 인공지능 DALL-E(달리) (https://blog.naver.com/chandong83/222198993535)

 

현재는 단순한 그림을 만들어내는 기술에 불과하지만 이를 기반으로 그림을 그려내는 영상 지능이 발전하면 우리는 어떤 미래를 생각해 볼 수 있을까요?

집을 설계할 때, “현관은 남쪽 왼편에 있고, 거실에는 남향으로 큰 창이 있으면 좋겠어. 거실 한가운데에 정원이 있어서 작은 나무를 키우고 싶어. 1층에는 욕실 하나, 손님 방 하나, …” 이렇게 말을 하면 설계도를 그려줄 수 있을 것입니다. 그리고 내 핸드폰 속에 저장된 수많은 사진들 중 원하는 사진을 찾을 때, “내가 작년에 캠핑 갔을 때 클레이 사격하던 사진이 있었는데…”라고 말하면 그 사진을 찾아준다면 정말 편리하겠지요?

 

이처럼 인공지능 기술은 다양한 분야와 영역에서 활발히 진행되고 있으며, 결국 우리가 원하는 인공지능 기술의 발전 방향은 인간 수준으로 이해하여 우리의 삶을 보다 편리하게 만들어주는 것이 아닐까 생각해 봅니다.

세 번째 세미나는 ‘사람처럼 작사, 작곡, 노래까지 할 수 있을 것인가’라는 주제로 진행됩니다. 앞으로 진행되는 세미나에도 많은 관심 부탁드립니다.