Adversarial Attack & Defense
Adversarial Attack & Defense 분야는인공지능 모델의 보안성을 다루는 기술입니다.
Adversarial attack은 이러한 지능적 시스템에 대해 악의적인 목적을 가지고 조작된 입력을 넣어서 정상적인 작동을 방해하는 것을 목표로 합니다. 인공지능 모델들은 일반적인 상황에서는 대단히 좋은 성능을 보여주지만 Adversarial attack을 이용하여 입력을 조작하면 눈으로 보기엔 큰 변화가 없음에도 시스템이 완전히 잘못 인식하도록 만들 수 있습니다.
Adversarial attack의 주요 원리는 아래 그림처럼 어떤 이미지에 작은 변화를 주어서 딥 네트워크가 판단할 때의 결정 경계(decision boundary)를 넘겨서 잘못 인식하게 만드는 것입니다.
그림 출처 : https://medium.com/@ageitgey/machine-learning-is-fun-part-8-how-to-intentionally-trick-neural-networks-b55da32b7196
그림 출처 : Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy. "Explaining and harnessing adversarial examples." arXiv preprint arXiv:1412.6572 (2014).
Adversarial attack 은 다양한 보안, 안전이 중요한 여러 분야에서 큰 위협이 될 수 있습니다. 예를 들어, 다음과 같이 특수 제작된 안경을 착용하면 얼굴 인식 시스템을 속이거나 멈추라는 표지판을 속도제한 표지판으로 만들 수 있어 자율 주행 자동차가 사고를 내도록 유도할 수 있습니다.
특수 제작된 안경을 착용한 왼쪽의 사람은 얼굴 인식 시스템에 의해 오른쪽 사진의 Milla Jovovich로 오인식됩니다.
그림 출처 : Sharif, Mahmood, et al. "Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition." Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. ACM, 2016.
관련 논문: Eykholt, Kevin, et al. "Robust physical-world attacks on deep learning visual classification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
An Example of Adversarial Defense on 3D Point Clouds
반면, Adversarial Defense는 이러한 인공지능 시대의 큰 위협인 adversarial attack에 대응하여 공격에 대해 방어하여 공격에 대해 강인한 모델을 설계하거나 공격을 사전에 탐지하는 일을 수행합니다. Adversarial attack은 현재의 인공지능 모델이 내부적으로 어떻게 작동하는지 간접적으로 이해할 수 있도록 도움을 주기도 하여, Explainable AI 분야에 이용되고 있습니다.
Adversarial Certified Defense for Adversarial Attacks.
Adversarial Attack 방법들에 대한 Adversarial Defense 방법들이 제안되어 왔으나, Defense 방법들은 새로 제안된 강력한 Adversarial Attack 방법들로 인하여 무력화 될 수 있습니다. 이러한 가능성은 "주어진 범위 내에서, 어떤 Adversarial Attack 방법이라도 공격의 성공은 불가능하다"는 것을 증명할 수 있는 방어 방법인 Certified Defense의 필요성을 부각합니다. 저희 연구실에는 Certified Defense의 성능을 증가키기 위하여, 기존 방법들의 훈련 과정에서 발생할 수 있는 Low Epsilon Overfitting이라는 문제를 발견하고, 이를 해결하는 연구를 진행한 바 있습니다.
Hyojun Go, Junyoung Byun, and Changick Kim, “Rethinking Training Schedules for Verifiably Robust Networks,” Accepted to the 28th IEEE International Conference on Image Processing (ICIP), Anchorage, Alaska, USA, Sep. 19-22, 2021.