Explainable AI

Visual Question Answering (VQA)는 주어진 영상에 대해 사용자가 임의의 질문을 하였을 때, 인공지능이 그에 대한 답변을 하는 것이 목표인 연구 분야입니다. 거듭되는 Attention 기술의 발달과 부가적인 딥러닝 기술의 발달로 인하여 고성능의 VQA 모델이 계속되어서 제시되고 있습니다. 하지만  VQA 모델의 해답을 내는 과정의 불투명성으로 인하여 그의 산업적인 이용이 많이 제한되고 있습니다. 이를 해결하기 위하여 현재 VQA 모델들에 대하여 interpretability를 부여하는 연구가 세계적으로 진행되고 있습니다.  

이 연구에서 저희는 기존 방법들과 다르게 모든 VQA 모델들에 대하여 Image Feature extractor가 변하지 않는 한, 재훈련(fine-tuning)이 필요하지 않는 접근법을 소개합니다. 이를 위하여 저희는 새로운 neural network unit을 제시하였으며, 해당 접근법을 통하여 얻어진 결과는 다음과 같습니다.