한국해군과학기술학회
[ Article ]
Journal of the KNST - Vol. 7, No. 4, pp.600-606
ISSN: 2635-4926 (Print)
Print publication date 31 Dec 2024
Received 17 Nov 2024 Revised 21 Nov 2024 Accepted 25 Dec 2024
DOI: https://doi.org/10.31818/JKNST.2024.12.7.4.600

강화학습 및 회귀모델을 이용한 표적위협평가 시스템 개발

한민석1 ; 장원석2 ; 전민규3 ; 이헌기3 ; 김세라4 ; 최영두5 ; 홍순국6, *
1해군사관학교 전자제어공학과 부교수
2한화시스템 해양시스템1팀 수석연구원
3해군사관학교 기계시스템공학과 조교수
4해군사관학교 기초과학과 부교수
5해군사관학교 전자제어공학과 조교수
6해군사관학교 기계시스템공학과 교수
Development of a Target Thread Assessment System Using Reinforcement Learning and Regression Models
Min-Seok Han1 ; Wonseok Jang2 ; Min-Gyu Jeon3 ; Hun-Kee Lee3 ; Sera Kim4 ; Youngdoo Choi5 ; Soon-Kook Hong6, *
1Associate professor, Dept. of Electronics and Control Engineering, Republic of Korea Naval Academy
2Chief engineer, Naval System Team 1, Hanwha Systems
3Assistant professor, Dept. of Mechanical System Engineering, Republic of Korea Naval Academy
4Associate professor, Dept. of Natural Science, Republic of Korea Naval Academy
5Assistant professor, Dept. of Electronics and Control Engineering, Republic of Korea Naval Academy
6Professor, Dept. of Electronics and Control Engineering, Republic of Korea Naval Academy

Correspondence to: *Soon-Kook Hong Dept. of Mechanical System Engineering, Republic of Korea Naval Academy 1 Jungwon-ro, Jinhae-gu, Changwon-si, Gyungsangnam-do, 51704, Republic of Korea Tel: +82-55-907-5314 E-mail: hks753@gmail.com

Ⓒ 2024 Korea Society for Naval Science & Technology

초록

본 연구는 강화학습(RL)과 회귀모델을 통합하여 표적 위협을 평가하는 시스템 개발을 제안한다. 제안된 시스템은 표적의 정체성, 방위각, 거리, 속도와 관련된 1,000개의 샘플로 구성된 데이터셋을 활용한다. 결측값은 선형보간법으로 처리하였으며, 특징 정규화를 수행하여 대공 위협모델에서 평균제곱오차(MSE) 0.045, 대함 위협모델에서 0.038을 달성하였다. 딥 Q-네트워크(DQN) 에이전트를 구현하였으며, 1,000 에피소드 동안 학습한 결과 평균 보상 -2.3을 기록하여 상태 변화 최소화에서 효과적인 학습을 나타냈다. 제안된 시스템은 통합 접근 방식을 통해 실시간 위협평가의 정확성과 반응성을 높여 운영 의사결정을 개선한다.

Abstract

This study presents the development of a target threat assessment system that integrates reinforcement learning (RL) and regression models to evaluate air and surface threats. The system utilizes a dataset comprising 1,000 samples related to target identity, bearing, range, and speed. Missing values were handled using linear interpolation, and feature normalization was performed, achieving a mean squared error (MSE) of 0.045 for air threat and 0.038 for surface threat in regression models. A Deep Q-Network (DQN) agent was implemented with a training duration of 1,000 episodes, resulting in an average reward of -2.3, indicating effective learning in minimizing state changes. The proposed system enhances real-time threat assessment accuracy and responsiveness, improving operational decision-making.

Keywords:

Reinforcement Learning, Regression Model, Target Thread Assessment, Mean Squared Error

키워드:

강화학습, 회귀모델, 표적위협평가, 평균제곱오차

Acknowledgments

이 논문은 2023년 정부(방위사업청)의 재원으로 국방기술진흥연구소의 지원을 받아 수행된 연구임(KRIT-CT-23-030).

References