인공지능 AI/자연어처리

Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0

 

논문선정이유

멀티모달 모델 관련 국내연구를 찾기 위해서.

Abstract

This paper presents our work on the Situated Interactive MultiModal Conversations 2.0 challenge held at Dialog State Tracking Challenge 10. SIMMC 2.0 includes 4 subtasks, and we introduce our multimodal approaches for the subtask #1, #2 and the generation of subtask #4. SIMMC 2.0 dataset is a multimodal dataset containing image and text information, which is more challenging than the problem of only text-based conversations because it must be solved by understanding the relationship between image and text. Therefore, since there is a limit to solving only text models such as BERT or GPT2, we propose a multimodal model combining image and text. We first pretrain the multimodal model to understand the relationship between image and text, then finetune our model for each task. We achieve the 3rd best performance in subtask #1, #2 and a runner-up in the generation of subtask #4. The source code is available at https://github.com/rungjoo/simmc2.0.

 

 

SIMMC 1.0 는 멀티모달을 처리하는 실제 단어 보조를 만드는 것을 목표로 한다.

SIMMC 2.0은 쇼핑 도메인에서 photo-realistic VR 장면들을 데이터셋으로 구성.

최근 AI분야에서 멀티모달에 관심사가 급증 중.

 

Task and Data Description

4 subtasks.

 

  1. Multimodal disambiguation is a task of predicting multimodal disambiguation given the conversation history and the current user’s utterances.
  2. binary classification으로 user’s 발언이 unknown.

 

  1. Multimodal Coreference Resolution is a task of matching objects referenced in the user’s utterance. During testing, the same data as subtask #1 is available.
  1. Multimodal Dialog State Tracking is a task to track dialog states based on multimodal context, which has a similar goal to traditional text-based dialog state tracking but also considers image input. During testing, the same data as subtask #1 is available.
  1. Multimodal Dialog Response Generation & Retrieval is the task of generating or retrieving an appropriate utterance for the user. Subtask #4 assumes that it has actual meta information (system transcript annotated), so the objects referenced by the current turn’s system are available.

 

 

 

Pretraining for Multimodal

Matching between object and visual metadata

Matching between background and context

Matching Score

 

Finetuning for Multimodal

subtask #1: binary classification 작업. 발언의 명료화 텍스트 입력이 연결됨.

영상 입력은 발화에 언급된 객체입니다.

RoBERTa의 출력은 t_CLS토큰. 이미지의 대표벡터는 d_CLS의 평균.

 

subtask#2: ITM과 유사하게 사용자 발화에 의해 참조되는 객체를 찾는 것을 목표로 한다. 그러나 ITM과 달리 하위 작업 #2의 텍스트 입력은 대화상자의 맥락과 장면에서 물체 사이의 위치 관계를 고려해야 한다.그리고 객체 간 관계 위치도.

이미지 대표 벡터는 o_CLS+b_CLS.

subtask#4: (Generation)

다음 턴의 시스템 발화를 생성하거나 검색.

텍스트 모델은 GPT2-Large, DelT-l를 이미지 모델로.

“[META] flatten slot values [RES]”

[RES]는 발화생성의 시작토큰.

확률은 o_CLS의 평균을 추가함으로써 예측.

 

 

 

 

relation 있는 객체는 1 또는 일치로.

점수 객체는 0으로. 점수0 또는 일치점수로.

 

Results

 

 

subtask#4: (Generation)

slot_values를 visual metadata의 중요한 요소로 삼음.

 

Conclusion

unimodal에 기반한 multimodal 모델 제안.

RoBERTa 텍스트모델과 DelT 이미지 모델.

각 하위작업에 finetuning 전, ITM 및 BTM 전략 제안.

멀티모달 상호작용은 모델 성능 향상시키기 위해 각 subtask에 대해 수행함.

 

subtask#2는 두 가지 multitasking 학습 제안.

객체 간의 관계정보와 결합되는 경우 추가적인 성능 개선 기대.

 

subtask #1 #2에서 3등 성능.

#4-1의 준우승.