한국해군과학기술학회
[ Article ]
Journal of the KNST - Vol. 8, No. 3, pp.314-322
ISSN: 2635-4926 (Print)
Print publication date 30 Sep 2025
Received 30 Jul 2025 Revised 12 Aug 2025 Accepted 15 Sep 2025
DOI: https://doi.org/10.31818/JKNST.2025.9.8.3.314

다중 무인 수중운동체 위협 환경에서 PPO 기반 강화학습을 이용한 잠수함의 최적 회피 및 의사결정 전략 연구

강언약1 ; 홍우영2 ; 이귀영3 ; 이종무4 ; 백혁재5 ; 배준호6 ; 추영민7, *
1세종대학교 해양시스템융합공학과 석사과정
2세종대학교 국방시스템공학과 교수
3해군 대위/세종대학교 해양시스템융합공학과 석사과정
4LIG넥스원 해양연구소 선임연구원
5LIG넥스원 해양연구소 수석연구원
6해군 소령/서울대학교 조선해양공학과 박사과정
7서울대학교 조선해양공학과 부교수
Optimal Evasion Decision and Strategies of Submarine Using PPO-based Reinforcement Learning under Multiple UUVs Threat Environment
Eonyak Kang1 ; Wooyoung Hong2 ; Gwiyoung Lee3 ; Jongmoo Lee4 ; Hyukjae Baek5 ; Junho Bae6 ; Youngmin Choo7, *
1M.S. student, Dept. of Ocean Systems Engineering, Sejong University
2Professor, Dept. of Defense Systems Engineering, Sejong University
3LT, ROK Navy/M.S. student, Dept. of Ocean Systems Engineering, Sejong University
4Research engineer, Maritime R&D Center, LIG Nex1
5Chief research engineer, Maritime R&D Center, LIG Nex1
6LCDR, ROK Navy/Ph.D. student, Dept. of Naval Architecture and Ocean Engineering, Seoul National University
7Associate Professor, Dept. of Naval Architecture and Ocean Engineering, Seoul National University

Correspondence to: *Youngmin Choo Tel: +82-2-880-8380 E-mail: sonacer@snu.ac.kr

Ⓒ 2025 Korea Society for Naval Science & Technology

초록

본 연구는 다중 무인 수중운동체(UUV)의 위협 환경에서 잠수함의 생존율을 높이기 위해, 음향 탐지 모델을 보상 함수 설계에 통합한 강화학습 기반의 회피 전략을 제안한다. 구체적으로, 시뮬레이션 환경은 다중 UUV, 잠수함의 운동 모델링과 음향 탐지 모델로 구성하였다. 보상 함수는 잠수함이 적대적 UUV의 탐지 및 공격을 능동적으로 회피할 수 있도록 설계되었다. 시뮬레이션 결과, 제안한 강화학습 기반 회피 전략은 기존의 고정된 패턴 전략과 비교하여 잠수함의 생존율을 크게 높였다. 또한, 음향 탐지 모델에 따라 탐지 신호를 최소화하는 최적의 회피 기동을 학습함으로써, 효과적으로 회피하고 높은 생존율을 달성하였다.

Abstract

This study proposes a reinforcement learning-based evasion strategy that integrates an acoustic detection model into the reward function design to enhance submarine survivability in a multi-unmanned underwater vehicle (UUV) threat environment. Specifically, the simulation environment was constructed with multi-UUV and submarine motion modeling, along with an acoustic detection model. The reward function was designed to enable the submarine to actively evade detection and attacks from hostile UUVs. Simulation results show that the proposed reinforcement learning-based evasion strategy significantly increased submarine survivability compared to conventional fixed-pattern strategies. Furthermore, by learning optimal evasion maneuvers that minimize detection signals based on the acoustic detection model, the strategy achieved effective evasion and high survivability.

Keywords:

Unmanned Underwater Vehicle, Submarine, Reinforcement Learning, Evasion Strategy, Acoustic Detection Model

키워드:

무인 수중운동체, 잠수함, 강화학습, 회피 전략, 음향 탐지 모델

Acknowledgments

본 연구는 LIG Nex1의 지원을 받아 수행된 연구 결과임.

References