분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치

등록일

2026-03-23

AI 음성인식 성능 향상 잡음/반향 강인한 음원 국지화

본 기술은 음원 국지화 방법에 관한 것으로, 타겟 음원 신호가 잡음 및 반향 환경에서 다중 마이크로폰으로 입력된 혼합 신호에 대하여, 일관성 대 분산도 파워비인 CDR(Coherence to Diffuseness ratio)을 이용하여 만든 분산도 마스크를 적용하여 교차 상관 기법을 기반으로 타겟 음원의 방향을 추정함으로써, 반향 및 분산 잡음에 강인한 음원 국지화 방법 및 음원 국지화 장치에 관한 것입니다.

기존은 원거리 및 잡음, 반향 환경에서 AI 음성인식 스피커의 성능 저하가 문제였습니다. 본 기술은 이러한 한계를 극복하기 위해 분산도 마스크를 이용한 혁신적인 음원 국지화 방법 및 장치를 제안합니다.

CDR 기반의 이진화 마스크를 통해 입력 신호를 전처리하고, GCC-PHAT 또는 SRP-PHAT 알고리즘을 적용하여 잡음과 반향에 강인하며 정확한 음원 방향 추정을 가능하게 합니다. 이로써 음성인식률을 획기적으로 개선하고 안정적인 AI 서비스를 제공합니다.

‍

Key Features:

음성 신호와 잡음 신호의 '일관성(Coherence)'과 '분산도(Diffuseness)' 특성 차이를 이용
타겟 음원과 잡음에 대한 정보를 담고 있는 '일관성 대 분산도 파워비'인 CDR(Coherence to Diffuseness Ratio)을 계산하여, 음성 신호가 우세한 영역과 잡음이 우세한 영역 구분
잡음 및 반향 성분을 효과적으로 억제하는 이진화된 분산도 마스크(Binary Diffuseness Mask)를 생성하고, 이를 입력 신호에 적용하여 신호를 전처리함으로써 음원 방향 추정의 정확도 향상
타겟 음원의 위상차 정보는 보존하면서 잡음 신호를 효과적으로 제거하므로, 교차 상관 함수의 피크 값을 명확하게 만들어 오검출 확률 감소

‍

본 기술은 한국연구재단의 시청각 정보에 대한 멀티모달 딥러닝 기반의 강인한 연속음성인식 연구과제 지원을 통해 개발되었습니다.

‍

서강대학교 산학협력단

박형민 | 이란

문서

출원일:

2018-01-25

특허등록번호:

10-2088222

산업

IT•인터넷