Audio Sorces 분리는 AI 를 이용한 Audio processing 분야의 핵심 과제이다.
여러가지 악기가 녹음되어있는 하나의 audio 작품에서 하나 또는 그 이상의 각각의 악기 성분을 분리하는것
접근 방식
여러 사운드 유형의 소스분리를 위해 단일 모델 사용 훈련을 위해 레이블이 약한 데이터에만 의존 볼 수 없었던 유형의 오디오 소스를 분리하는 방법을 학습
성공적인 backbone 아키텍쳐
- Wave-U-Net
- TasNet
- D3Net
⇒ 오디오 소스의 각 대상유형에 대한 전체 모델 매개 변수 세트를 교육해야한다.
⇒ 결과적으로 이러한 모델을 훈련하는데 많은 시간과 메모리가 필요하다.
문제점
범용 소스 분리로 알려져 있다.
즉, 가능한 한 많은 소스를 분리하기 위해 단일 모델만 필요하다는 것
문제를 해결하기 위한 방향
- 첫번째 문제 극복 : 메타 학습을 활용하는 여러 휴리스틱 프레임 워크가 있다. (samuel, ganeshan )
- 프레임 워크는 성공했다.
- 하지만 이또한 다양한 유형의 오디오 소스의 일반화 하는데 어려움이 있다.
- 즉 여러 소스 구분자를 하나의 모델로 결합 하지만 소스의 수는 여전히 제한 되어있다.
- 두번째 문제 극복 : 매우 다양한 음원이 포함된 오디오 분리 데이터 세트로 모델을 훈련 시키는 것
- 모델이 볼 수 있는 음원이 많을 수록 일반화 하기 쉬워진다.
- 하지만 이또한 단점이 존재하는데 감독 분리 데이터 세트의 부족으로 이 처리가 까다로워진다.
- 따라서 대부분의 분리 데이터 세트에는 몇가지의 소스 유형만 포함되어있다.
- MUSKB18 및 DSD100의 음악 : 5-10 시간 동안 4가지 소스 유형 ( 보컬, 드럼, 베이스, 기타) 트랙
- MedleyDB 음악 : 82개의 악기 클래스, 총 시간은 3시간에 불과하다.
- AudioSet 및 FUSS : 대규모 데이터 세트(527개의 사운드 이벤트, 210만개의 10초 오디오 샘플 ) 이다 그러나 약한 레이블이 지정된 데이터만 포함( 녹음중 5% 만 이벤트 레이블이 존재한다. )되어있다. 나머지 95 % 에 대해 레이블이 지정된 각 사운드 이벤트의 올바른 발생을 10초 샘플 내에서 발생 가능하다.
- 이러한 Audioset (약하게 레이블 처리된) 를 활용하려면 오디오 태깅 작업을 해야한다
적용 가능한 부분 (downstream 작업)
- 오디오 추출
- 오디오 녹음
- 음악 및 음성 향상
레이블이 약한 데이터 셋인 audioset 에서 범용 오디오 소스 분리기를 훈련하기 위한 3요소 파이프 라인
- weakly labeled training data 를 처리하기 위한 변환기 기반 사운드 이벤트 감지 시스템 제안
- 쿼리 기반 오디오 분리 모델 고안
- 모델 훈련을 위해 해당 데이터를 활용
- 분리를 위해 오디오 대상을 지정하는 쿼리를 인코딩하는 embedding processor 를 설계하여 zero shot 일반화 허용
학습 / 검증 데이터
- 분리 성능을 평가하기 위해 MUSDB18 데이터로 모델을 테스트
- 분리된 Audioset 데이터를 이용한 교육
- 훈련에서 제외된 Audio sorces 유형은 또다른 실험을 수행하여 zero shot 성능을 추가로 검증한다.
논문 출처
https://arxiv.org/abs/2112.07891