본문 바로가기

딥러닝/소리데이터

[서울대 지능정보 세미나 - 이교구 교수] (3) SVS (Singing Voice Synthesis) : 가창 합성 : 김광석 & 터틀맨 제작 과정

해당 세미나를 듣고 내용을 요약하고 링크나 다른 내용을 좀더 추가했습니다.

혹시라도 저작권 문제로인해 삭제 해야한다면 nhj1124@icloud.com 메일로 알려주세요 

https://youtu.be/BiDXrqWUt0w


지금 작성하는 기술들은 supertone 기업의 기술설명임을 밝힙니다. 

Singing Voice : 가창 

 사람의 목소리로 음악을 표현하는 방식이고, 멜로디를 담고 그로부터 표현력을 극대화 하는 요소입니다. 

여기서 멜로디와 음정은 악보를 통해서 얻어 낼 수 있습니다. 

이러한 SVS (Singing Voice Synthesis) 가창합성은 주어진 악보 빛 가사정보로부터 자연스러운 가창음성을 생성해내는 작업(Task) 입니다. 

앞서 게시했던 TTS system 과는 유사하다고 할 수 있지만 SVS 는 음성 및 박자를 제어가 가능하다는점에서 차이가 존재합니다. 


SVS (Singing Voice Synthesis)가창합성기술에 대해 좀 더 자세히 이야기 해 보자면 

텍스트 정보( 가사) + 오디오 정보(가수 목소리) + 감성정보(악보를통한 학습) 

로 이루어진 기술이라 할 수 있습니다. 

여기서 감성 정보를 학습하는 방법은 

- 악보의 음정, 음의 길이 등 감정에 따라 달라지는 음성요소가 담겨있는 악보읽는 법을 AI 에게 가르쳤습니다. 

이러한 기술로 인해 

- 여러명의 Singer 들을 보아 각각의 가수별로 다화자 모델을 생성할 수 있습니다.

- 가수 A, 가수 B 의 목소리를 섞어 중간 정도의 목소리를 가진 모델을 생성할 수 있습니다. 

- 이러한 가창합성기술이 고도화 된다면 여러 가수들을 섞은 목소리를 재창조해낸 모델을 생성할 수 있게 됩니다. 


SVS (Singing Voice Synthesis)가창합성기술의 핵심 네트워크  2가지 

  1. 가사만 담당하는 부분 
  2. 음정(피치 스케일러) 를 담당하는 부분 

이 두가지를 따로 분리하여 독립적으로 다룹니다. 
독립적으로 다루게 되니 다양한 형태의 가창을 만드는것이 쉽고 가능해집니다. 
이 부분이 알고리즘의 핵심입니다. 

이러한 가창 합성 기술은 
고인이 되신 분들의 목소리로 새로운 노래를 다시 들을 수 있으며
자동작곡도 다룰 수 있습니다. 


AI 를 만들때 특히나 중요하게 생각해야하는것은 사회적인 상황이나 도덕적인, 법적인부분을 모두 고려해야합니다. 
고인이 되신 분들의 목소리를 사용하는것 이기 때문에 유족분들의 동의를 얻어 해당 모델을 만들었다고 합니다. 

김광석 제작 

https://youtu.be/nD1GWOJ5Og8

음원분리기술을 이용하여 20~30년전 스테레오 음악에서 반주들을 빼고 클린한 보컬(가창)만 뽑아 약 20곡정도의 고 김광석님의 가창 데이터 이용(훈련데이터) 하여 모델을 생성

거북이 - 터틀맨 제작

https://youtu.be/Jm0s0CEEd3Q

거북이의 홀로그램은 다른분께서 마커를 달고 실제로 춤을 주었으며, 얼굴 부분만 딥페이크 기술을 이용하여 터틀맨으로 구현하고
터틀맨은 주로 랩을 담당하는 사람이였기 때문에 싱잉데이터가 많이 없었으며, 극소량의 데이터를 가지고 목소리 모델을 구현