Captioning & Explainable A.I

영상 캡셔닝은 영상이 주어졌을 때 해당 영상에 대한 설명을 문장 형식으로 제공하는 기술입니다.

설명가능한 A.I는 인공지능 모델의 결정 과정을 사람이 이해할수 있도록 설계하는 기술입니다. 즉, 주어진 영상에 대해서 사용자가 임의의 질문을 하였을 때, 인공지능이 그에 대한 답변을 할 수 있도록 만드는것이 목표인 연구분야입니다.

XAI 기법은 인공지능 모델이 IMAGE CLASSIFICATION 등에서 decision을 내릴 때 주요 근거로 사용하는 요점을 부각하는 시각화 기법과 다양한 요소를 기반으로 판단이 필요한 TASK에서의 근거를 서술해내는 서술형 XAI가 있습니다. 시각화 XAI 기법의 대표적인 방법은 CAM, GRAD-CAM 그리고 LRP등이 있으며, 서술형 XAI는 VQA(Visual Question Answering)나 VCR(Visual Commonsense Reasoning)등을 위주로 다양한 파생연구가 제시되고 있습니다. 두 기법의 대표적인 차이점은 시각화 XAI 기법은 Homogeneous Knowledge domain (i.e. 영상에서만 문제를 해결하고자 하는 경우)에서의 reasoning을 찾는 연구라면, 서술형 XAI 기법은 Heterogeneous Knowledge domain (i.e. 영상 및 external knowledge source)를 융합하여서 reasoning을 찾는 기법을 연구하는 분야라는 점에 있습니다.


저희 연구실에서는 이러한 서술형 XAI에서 가장 Challenging 한 부분인 Heterogeneous knowledge에 대한 추론 방법을 ConceptNet과 Natural Language Inference기법을 융합하여서  가능하도록 하였으며, 이 전체적인 시스템이 원활하게 이루어질 수 있도록 Variable Constrained Beam Search Decoding 알고리즘을 제안하였습니다.


Seungjun Jung, Junyoung Byun, Kyujin Shim, and Changick Kim, "Understanding VQA for Negative Answers through Visual and Linguistic Inference" accepted at ICIP 2021.