본 기술은 시각적 그라운딩(Visual Grounding) 기술을기반으로 이미지에서 객체의 범주, 위치, 속성 정보를 추출하고, 이를 자연어 인스트럭션으로 변환하여 로봇의 조작 궤적을 계획하고 제어하는 인공지능 모델 생성 메커니즘에 관한것입니다.
기존 로봇 제어 방식은 작업자가 물체의 좌표와 작업 내용을 수동으로 입력해야 하므로, 물체 위치가 고정되어야 하고 다수의 객체에 대한 명령어 생성 시 작업 효율이 낮은 문제점이 있었습니다.
이에 본 기술은 이미지로부터 객체를 인식 및 특징을 추출하는 시각적 특징 추출 모듈, 상황에 맞는 자연어 인스트럭션을 생성하는 모듈, 시각적 그라운딩모델을 통해 대상과 위치를 추론하는 모델, 및 로봇 팔의 궤적을 계획하는 조작 모듈로 구성된 제1프레임워크(GVCCI)를 사용하여 학습 데이터 세트를 생성하고 이를 기반으로 인공지능 모델을 훈련하는 방법을 제안합니다.
본 기술은 정보통신기획평가원의 새로운 문제를 해결하는 자기주도 인공지능 연구과제 지원을 통해 개발되었습니다.
PCT출원 WO2025178174