본 기술은 대화 정책 모델의 최적화 방법 및 이를 구현하는 대화 시스템에 관한 것입니다.
기존 대화 시스템의 대화 정책 모델은 규칙 기반으로 인해 유연성 및 확장성에 한계를 가졌습니다. 특히 방대한 대화 상태 공간에서의 강화 학습 적용이 어려웠습니다. 본 기술은 이러한 문제점을 해결하기 위해 사용자 발화 의도의 신뢰점수를 포함한 대화 상태를 연속적인 벡터로 표현합니다.
시간 단계마다 수신한 데이터를 활용하는 경험 재현(Experience Replay) 기법을 통해 대화 정책 모델을 강화 학습합니다. 이를 통해 경험 데이터를 효율적으로 재사용하고 샘플 간 상관관계를 줄여 데이터 효율성을 크게 향상시켜 자연스러운 대화가 가능한 차세대 대화 시스템을 구현할 수 있습니다.
N/A