Sold
Available
IBL-26-0069

분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치

등록일
2026-03-23
AI 음성인식 성능 향상 잡음/반향 강인한 음원 국지화

본 기술은 음원 국지화 방법에 관한 것으로, 타겟 음원 신호가 잡음 및 반향 환경에서 다중 마이크로폰으로 입력된 혼합 신호에 대하여, 일관성 대 분산도 파워비인 CDR(Coherence to Diffuseness ratio)을 이용하여 만든 분산도 마스크를 적용하여 교차 상관 기법을 기반으로 타겟 음원의 방향을 추정함으로써, 반향 및 분산 잡음에 강인한 음원 국지화 방법 및 음원 국지화 장치에 관한 것입니다.

기존은 원거리 및 잡음, 반향 환경에서 AI 음성인식 스피커의 성능 저하가 문제였습니다. 본 기술은 이러한 한계를 극복하기 위해 분산도 마스크를 이용한 혁신적인 음원 국지화 방법 및 장치를 제안합니다.

CDR 기반의 이진화 마스크를 통해 입력 신호를 전처리하고, GCC-PHAT 또는 SRP-PHAT 알고리즘을 적용하여 잡음과 반향에 강인하며 정확한 음원 방향 추정을 가능하게 합니다. 이로써 음성인식률을 획기적으로 개선하고 안정적인 AI 서비스를 제공합니다.

Key Features:
  • 음성 신호와 잡음 신호의 '일관성(Coherence)'과 '분산도(Diffuseness)' 특성 차이를 이용
  • 타겟 음원과 잡음에 대한 정보를 담고 있는 '일관성 대 분산도 파워비'인 CDR(Coherence to Diffuseness Ratio)을 계산하여, 음성 신호가 우세한 영역과 잡음이 우세한 영역 구분
  • 잡음 및 반향 성분을 효과적으로 억제하는 이진화된 분산도 마스크(Binary Diffuseness Mask)를 생성하고, 이를 입력 신호에 적용하여 신호를 전처리함으로써 음원 방향 추정의 정확도 향상
  • 타겟 음원의 위상차 정보는 보존하면서 잡음 신호를 효과적으로 제거하므로, 교차 상관 함수의 피크 값을 명확하게 만들어 오검출 확률 감소

본 기술은 한국연구재단의 시청각 정보에 대한 멀티모달 딥러닝 기반의 강인한 연속음성인식 연구과제 지원을 통해 개발되었습니다.

서강대학교 산학협력단
박형민 | 이란
문서
출원일:
2018-01-25
|
특허등록번호:
10-2088222
산업
IT•인터넷
소프트웨어
기술
인공지능
컴퓨터공학
국가
Korea
패밀리 특허

미국 US10593344B2

제시 가격
가격협의
뉴스레터를 구독하시면 최신 특허 정보를 가장 빠르게 받아보실 수 있습니다.
← 목록으로 돌아가기