대화 정책 모델의 최적화 방법 및 이를 구현하는 대화 시스템

등록일

2026-03-27

대규모 대화 시스템 위한 AI 정책 모델 최적화

본 기술은 대화 정책 모델의 최적화 방법 및 이를 구현하는 대화 시스템에 관한 것입니다.

기존 대화 시스템의 대화 정책 모델은 규칙 기반으로 인해 유연성 및 확장성에 한계를 가졌습니다. 특히 방대한 대화 상태 공간에서의 강화 학습 적용이 어려웠습니다. 본 기술은 이러한 문제점을 해결하기 위해 사용자 발화 의도의 신뢰점수를 포함한 대화 상태를 연속적인 벡터로 표현합니다.

시간 단계마다 수신한 데이터를 활용하는 경험 재현(Experience Replay) 기법을 통해 대화 정책 모델을 강화 학습합니다. 이를 통해 경험 데이터를 효율적으로 재사용하고 샘플 간 상관관계를 줄여 데이터 효율성을 크게 향상시켜 자연스러운 대화가 가능한 차세대 대화 시스템을 구현할 수 있습니다.

‍

Key Features:

대화 상태 결정부: 사용자 발화로부터 화행(speech act) 정보를 받아 대화의 목표, 방식, 요청 등을 포함하는 대화 상태를 결정하고 이를 연속적인 벡터로 변환
대화 관리부: 생성된 대화 상태 벡터를 '대화 정책 모델'에 입력하여, 현재 상태에서 수행할 최적의 대화 행위를 결정
대화 정책 모델 학습부: 대화가 진행되면서 쌓이는 경험 데이터(상태, 행동, 보상, 다음 상태)를 이용하여 대화 정책 모델을 강화 학습시킴으로써, 모델을 지속적으로 최적화
간 순서에 따라 수집된 경험 데이터를 재사용하는 '경험 재현(Experience Replay)' 기법을 통해 학습 데이터 간의 상관관계를 줄이고, 적은 데이터로도 효율적인 학습이 가능

‍

서강대학교 산학협력단

서정연 | 구명완 | 허광호

문서

출원일:

2018-11-05

특허등록번호:

10-2152339

산업

IT•인터넷

소프트웨어

기술