본 기술은 음원 국지화 방법에 관한 것으로, 타겟 음원 신호가 잡음 및 반향 환경에서 다중 마이크로폰으로 입력된 혼합 신호에 대하여, 일관성 대 분산도 파워비인 CDR(Coherence to Diffuseness ratio)을 이용하여 만든 분산도 마스크를 적용하여 교차 상관 기법을 기반으로 타겟 음원의 방향을 추정함으로써, 반향 및 분산 잡음에 강인한 음원 국지화 방법 및 음원 국지화 장치에 관한 것입니다.
기존은 원거리 및 잡음, 반향 환경에서 AI 음성인식 스피커의 성능 저하가 문제였습니다. 본 기술은 이러한 한계를 극복하기 위해 분산도 마스크를 이용한 혁신적인 음원 국지화 방법 및 장치를 제안합니다.
CDR 기반의 이진화 마스크를 통해 입력 신호를 전처리하고, GCC-PHAT 또는 SRP-PHAT 알고리즘을 적용하여 잡음과 반향에 강인하며 정확한 음원 방향 추정을 가능하게 합니다. 이로써 음성인식률을 획기적으로 개선하고 안정적인 AI 서비스를 제공합니다.
본 기술은 한국연구재단의 시청각 정보에 대한 멀티모달 딥러닝 기반의 강인한 연속음성인식 연구과제 지원을 통해 개발되었습니다.
미국 US10593344B2