본문 바로가기

딥러닝

(15)
[Tensorflow] Audio data preprocessing (오디오데이터 전처리) deeplearning 에서 audio 영역에서 널리 사용되는 기능은 mel-spectrogram 입니다. mel spectrogram 시간에 따른 신호의 주파수 스펙트럼을 시각적으로 표현 한 것 audio domain 에서 가장 인기있는 특징표현 (feature representation) 이다. 일반 spectrogram 은 frequecny domain 이 표현 되어있지만 , mel - spectrogram 은 mel scale (인간의 청각 민감도를 고려한) 으로 표현 되어있다. mel scale 은 로그 스케일 변환이 일어난다. ( 정식명칭 : log - mel spectrogram) log 는 scale , mel 은 requency domain 을 의미한다. 오디오 데이터를 5개의 간단한 s..
[Cornell University] Zero shot Audio Source Separation : 논문 분석 (1) 개요 Audio Sorces 분리는 AI 를 이용한 Audio processing 분야의 핵심 과제이다. 여러가지 악기가 녹음되어있는 하나의 audio 작품에서 하나 또는 그 이상의 각각의 악기 성분을 분리하는것 접근 방식 여러 사운드 유형의 소스분리를 위해 단일 모델 사용 훈련을 위해 레이블이 약한 데이터에만 의존 볼 수 없었던 유형의 오디오 소스를 분리하는 방법을 학습 성공적인 backbone 아키텍쳐 Wave-U-Net TasNet D3Net ⇒ 오디오 소스의 각 대상유형에 대한 전체 모델 매개 변수 세트를 교육해야한다. ⇒ 결과적으로 이러한 모델을 훈련하는데 많은 시간과 메모리가 필요하다. 문제점 범용 소스 분리로 알려져 있다. 즉, 가능한 한 많은 소스를 분리하기 위해 단일 모델만 필요하다는 것 문제..
[서울대 지능정보 세미나 - 이교구 교수] (4) NASY : Neural Analysis and Synthesis 신경망 기반 음성 분석 및 합성 보호되어 있는 글입니다.
[서울대 지능정보 세미나 - 이교구 교수] (3) SVS (Singing Voice Synthesis) : 가창 합성 : 김광석 & 터틀맨 제작 과정 해당 세미나를 듣고 내용을 요약하고 링크나 다른 내용을 좀더 추가했습니다. 혹시라도 저작권 문제로인해 삭제 해야한다면 nhj1124@icloud.com 메일로 알려주세요 https://youtu.be/BiDXrqWUt0w 지금 작성하는 기술들은 supertone 기업의 기술설명임을 밝힙니다. Singing Voice : 가창 사람의 목소리로 음악을 표현하는 방식이고, 멜로디를 담고 그로부터 표현력을 극대화 하는 요소입니다. 여기서 멜로디와 음정은 악보를 통해서 얻어 낼 수 있습니다. 이러한 SVS (Singing Voice Synthesis) 가창합성은 주어진 악보 빛 가사정보로부터 자연스러운 가창음성을 생성해내는 작업(Task) 입니다. 앞서 게시했던 TTS system 과는 유사하다고 할 수 있지만 ..
[서울대 지능정보 세미나 - 이교구 교수] (2) TTS - Text - to - Speech 해당 세미나를 듣고 내용을 요약하고 유튭링크나 다른 내용을 좀더 추가했습니다. 혹시라도 저작권 문제로인해 삭제 해야한다면 nhj1124@icloud.com 메일로 알려주세요 https://youtu.be/BiDXrqWUt0w TTS (TEXT TO Speech) : 음성 합성 기술 꽤 오래된 기술 TTS 의 예시를 볼 수 있습니다. https://youtu.be/40y39FvAkeY TTS (Text - to - Speech )기술은 - 시각/청각 장애인들을 위한 활용방안이 많습니다. - 정보나, 사실관계를 전달하는데에는 문제가 없습니다. : 네비게이션, 날씨 전달, 시리 등 - 문장을 읽어내는 능력이 뛰어납니다. (글자의 발음능력 또한 뛰어납니다. ) : 예를들면 김주하 AI 앵커 https://you..
[서울대 지능정보 세미나 - 이교구 교수] (1) Sound 컨텐츠 시장의 리스크 & 베토벤 미완성 교향곡 10번 (도이치 텔레콤) 보호되어 있는 글입니다.
Beethoven AI - 도이치 텔레콤 도이치 텔레콤에서 2021년 10 월 10 일에 베토벤의 미완성교향곡인 10번을 완성시키고 초연을 발표했습니다. https://www.aitimes.kr/news/articleView.html?idxno=14911 [이슈] 베토벤의 미완성 교향곡 10번, AI가 완성시킨다 - 인공지능신문 불행히도 루드비히 반 베토벤(1770~1827)은 그의 10번째 교향곡을 완성할 수 없었다. 그가 사망할 당시에는 교향곡과 관련된 몇 가지 음표와 악보 스케치만 발견됐다.2020년은 베토벤 탄생 250주년이 www.aitimes.kr https://www.hankyung.com/life/article/2021082964401 베토벤 미완성 교향곡, AI가 완성했다 베토벤 미완성 교향곡, AI가 완성했다, 獨 도이치텔레콤..
[Object Detection] [Birds Classification] 3. 구글 colab 환경에서 darknet 신경망에 넣어 학습 (가중치, 환경구성파일) 라벨링된 이미지 폴더 .zip 파일 구글 드라이브에 올려놓기. 라벨링된 이미지 폴더 .zip 파일 구글 드라이브에 올려놓기 업로드 시간 걸림 구글 드라이브에 직접 yolo_custom_model_Training3 폴더에 animal.zip 파일 올리기 후에 리눅스 명령어로 unzip 명령어로 압축 풀 예정 -> custom_data 폴더로 압축 풂 ⇒ 링크 6번 코랩의 GPU 체크하기 !nvidia-smi -L Mount Google Drive → 구글 드라이브에 마운트 하기 from google.colab import drive drive.mount('/content/drive') unzip picture_data(for train_test) yolo_custom_model_Training3 폴더 만들..