[AI 사내 세미나] 사람처럼 작사, 작곡, 노래까지 할 수 있을 것인가?

Jul 5, 2021

세 번째 세미나 주제는 AI가 작사, 작곡, 노래를 할 수 있을 것인가에 대해 얘기 나누어 보았습니다.

사이버 가수 아담을 기억하시나요? 1998년에 등장한 아담은 가상 캐릭터로 실제 노래는 사람이 불렀던 사이버 가수였습니다. 이처럼 기계로 구현한 가상 가수에 대한 기술이 꾸준히 연구되어 왔는데요.

사이버 가수 이후에 인공지능 보컬 기술도 등장했습니다. 인공지능 보컬은 악보를 주면 가상 가수가 노래를 부르는 음성 합성 시스템으로 노래를 하기 위해 필요한 글자의 음높이, 길이 정보를 기반으로 노래를 부릅니다.

기계가 노래를 부르려면 음성 합성 기술(TTS, Text to Speech)이 필요합니다. 음성 합성 기술은 사람의 음성을 인공적으로 생산하는 기술이며 텍스트를 음성으로 변환합니다. 음성 합성 기술은 이미 다양한 분야에서 많이 활용되고 있는데요. 이제는 대부분의 가정에 하나쯤은 있을법한 인공지능 스피커, 사용자에게 정보를 제공해주는 로봇 등 사람의 목소리를 대신해주는 기능에 TTS 기술이 적용되어 있습니다.

seminar4_2_edited.png

음성 합성 기술이 적용된 제품들

 

이처럼 텍스트를 음성으로 변환하는 TTS 기술을 기반으로 여러 학교 및 기업에서 노래 합성 기술을 연구하고 있는데요. 그 중에 대표적인 3가지를 소개해드리고자 합니다.

 

YAMAHA(야마하) – VOCALOID(보컬로이드)

악기 제조업체인 YAMAHA는 2003년부터 음성합성 소프트웨어인 VOCALOID를 개발해왔습니다. 아래는 VOCALOID를 사용하여 로봇이 노래를 부르는 영상으로 VOCALOID(2007)가 적용되었습니다. 꽤 그럴싸하지 않나요?

가장 최근 버전은 VOCALOID5 로써 2018년에 출시되었으며, Standard 및 Premium 버전을 구매하여 사용가능합니다.

seminar4_3.png

VOCALOID5 제품

또한 VOCALOID에서 사용 가능한 보이스 라이브러리를 판매하고 있으며, 각 라이브러리는 캐릭터별 특징과 지원하는 언어가 모두 다릅니다. 이 중에서 하츠네 미쿠(Hatsune Miku)라는 캐릭터가 가장 유명한데요. 미쿠는 콘서트를 개최하기도 했고, 미국 레터맨쇼 및 레이디 가가 콘서트에도 참가하는 기록을 가지고 있습니다.

 

 

Supertone(수퍼톤)

2020년에 설립된 국내 스타트업으로 노래와 연기가 가능한 음성 합성 솔루션을 개발하고 있습니다. 최근 SBS에서 방영한 ‘세기의 대결 AI vs. 인간’ 프로그램을 보신적 있나요? 여기에서 故김광석 님의 노래를 AI가 부르기도 하고, 옥주현씨의 목소리를 모창하기도 했습니다.

 

이 밖에도 Humelo(휴멜로)라는 국내 스타트업에서 AI 성우 서비스를 개발하였으며, 인공지능 작곡/작사가 가능한 AI Music을 개발하고 있습니다. K-Pop이 전세계적으로 열풍을 일으키고 있는 지금, 국내 기업에서 개발하고 있다고 하니 무척 기대가 됩니다.

 

그렇다면 AI가 작곡하는 기술도 가능할까요?

노래가 완성되려면 음과 박자를 가진 악보, 가사가 필요합니다. 먼저 가사 생성에 대해서 알아보겠습니다.

이미 인공지능 분야에서는 언어 모델을 사용하여 글을 생성하는 것이 가능하며, 이와 비슷한 방식으로 가사 생성이 가능합니다. 다만, 노래라는 특성을 고려하여 운율, 반복적인 구조 등을 잘 반영해야 합니다. Keyword to Lyrics 에서는 키워드를 입력하면 가사를 출력해주는 기능을 제공하고 있습니다.

그렇다면 가사가 아닌 음과 박자를 넣은 곡을 생성하는 기술에는 어떤 것이 있을까요?

 

Jukebox

Jukebox는 OpneAI에서 개발한 작곡 기술로써 Raw audio 데이터를 직접 학습에 사용하여 높은 음질과 다양한 음악을 생성합니다. Raw audio 데이터를 입력하고, 원하는 컨디션(장르, 아티스트)을 적용하면 원하는 스타일의 음악으로 재탄생합니다. 그러나 1분짜리 곡을 생성하는데에 약 9~12시간이 걸리고, 출력 데이터에 Noise가 많이 들어가는 것이 한계점으로 분석됩니다.

 

AIVA

AIVA는 상용화된 기술로써 AIVA로 작곡한 음악이 NVIDIA에서 주최하는 GTC2021의 키노트로 사용되기도 했습니다. AIVA는 강화학습을 사용한 것으로 알려져 있으며, 웹 기반의 작곡 툴입니다. 주로 Classic 음악을 기반으로 하여 대부분의 음악이 Classic 분위기를 연출합니다.

 

Amper

Amper 역시 상용화된 웹 기반의 작곡 툴입니다. 장르뿐 아니라 다양한 Mood, Style, Tempo 등을 사용하여 음악을 생성할 수 있습니다. 이 기술은 전체 곡을 생성하는 것에 초점을 두고 있습니다.

 

지금까지 인공지능의 노래, 작곡 기술에 대해 살펴보았는데요. 인공지능 보컬이 보편화되어 내가 원하는 노래를 내가 원하는 가수의 목소리로 들을 수 있다면 어떨까요? 또한 인공지능 작곡 기술이 더욱 발전한다면 언제 어디서든 원하는 음악을 손쉽게 만들어보고 들을 수 있지 않을까요?

인공지능의 노래, 작곡 기술은 아직 한계점을 가지고 있지만 지속적인 연구와 개발을 통해 더욱 발전하여 우리의 문화 생활도 풍성하게 만들어 줄 수 있기를 기대해 봅니다.