본문 바로가기

딥러닝/소리데이터

[Cornell University] Zero shot Audio Source Separation : 논문 분석 (1) 개요

Audio Sorces 분리는 AI 를 이용한 Audio processing 분야의 핵심 과제이다.
여러가지 악기가 녹음되어있는 하나의 audio 작품에서 하나 또는 그 이상의 각각의 악기 성분을 분리하는것

접근 방식

여러 사운드 유형의 소스분리를 위해 단일 모델 사용 훈련을 위해 레이블이 약한 데이터에만 의존 볼 수 없었던 유형의 오디오 소스를 분리하는 방법을 학습


성공적인 backbone 아키텍쳐

  • Wave-U-Net
  • TasNet
  • D3Net

⇒ 오디오 소스의 각 대상유형에 대한 전체 모델 매개 변수 세트를 교육해야한다.
⇒ 결과적으로 이러한 모델을 훈련하는데 많은 시간과 메모리가 필요하다.


문제점

범용 소스 분리로 알려져 있다.

즉, 가능한 한 많은 소스를 분리하기 위해 단일 모델만 필요하다는 것


문제를 해결하기 위한 방향

  • 첫번째 문제 극복 : 메타 학습을 활용하는 여러 휴리스틱 프레임 워크가 있다. (samuel, ganeshan )
    • 프레임 워크는 성공했다.
    • 하지만 이또한 다양한 유형의 오디오 소스의 일반화 하는데 어려움이 있다.
    • 즉 여러 소스 구분자를 하나의 모델로 결합 하지만 소스의 수는 여전히 제한 되어있다.
  • 두번째 문제 극복 : 매우 다양한 음원이 포함된 오디오 분리 데이터 세트로 모델을 훈련 시키는 것
    • 모델이 볼 수 있는 음원이 많을 수록 일반화 하기 쉬워진다.
    • 하지만 이또한 단점이 존재하는데 감독 분리 데이터 세트의 부족으로 이 처리가 까다로워진다.
  • 따라서 대부분의 분리 데이터 세트에는 몇가지의 소스 유형만 포함되어있다.
    • MUSKB18 및 DSD100의 음악 : 5-10 시간 동안 4가지 소스 유형 ( 보컬, 드럼, 베이스, 기타) 트랙
    • MedleyDB 음악 : 82개의 악기 클래스, 총 시간은 3시간에 불과하다.
    • AudioSet 및 FUSS : 대규모 데이터 세트(527개의 사운드 이벤트, 210만개의 10초 오디오 샘플 ) 이다 그러나 약한 레이블이 지정된 데이터만 포함( 녹음중 5% 만 이벤트 레이블이 존재한다. )되어있다. 나머지 95 % 에 대해 레이블이 지정된 각 사운드 이벤트의 올바른 발생을 10초 샘플 내에서 발생 가능하다.
    • 이러한 Audioset (약하게 레이블 처리된) 를 활용하려면 오디오 태깅 작업을 해야한다

적용 가능한 부분 (downstream 작업)

  • 오디오 추출
  • 오디오 녹음
  • 음악 및 음성 향상

레이블이 약한 데이터 셋인 audioset 에서 범용 오디오 소스 분리기를 훈련하기 위한 3요소 파이프 라인

  1. weakly labeled training data 를 처리하기 위한 변환기 기반 사운드 이벤트 감지 시스템 제안
  2. 쿼리 기반 오디오 분리 모델 고안
    • 모델 훈련을 위해 해당 데이터를 활용
  3. 분리를 위해 오디오 대상을 지정하는 쿼리를 인코딩하는 embedding processor 를 설계하여 zero shot 일반화 허용

학습 / 검증 데이터

  • 분리 성능을 평가하기 위해 MUSDB18 데이터로 모델을 테스트
  • 분리된 Audioset 데이터를 이용한 교육
  • 훈련에서 제외된 Audio sorces 유형은 또다른 실험을 수행하여 zero shot 성능을 추가로 검증한다.

논문 출처

https://arxiv.org/abs/2112.07891

 

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data

Deep learning techniques for separating audio into different sound sources face several challenges. Standard architectures require training separate models for different types of audio sources. Although some universal separators employ a single model to ta

arxiv.org