DQN 기반 대잠 헬기 호버링 제어를 위한 심층 신경망 구조 설계 및 성능 분석
Ⓒ 2024 Korea Society for Naval Science & Technology
초록
본 연구에서는 DQN(Deep Q-Network)을 활용하여 대잠 헬기의 호버링 제어를 위한 심층 신경망 구조를 설계하고 성능을 분석하였다. 시뮬레이션에서 목표 위치는 (0, 0, 10)으로 설정하고, 질량은 8,000 kg, 중력 가속도는 9.81 m/s2로 가정하였다. DQN 에이전트는 500 에피소드 동안 학습하여 평균 보상 195에 도달하였다. PID 제어기와의 비교에서 DQN 제어기는 상승 시간 0.5초, 정착 시간 3.5초, 오버슈트 0.5 %를 기록하였고, PID 제어기는 각각 0.47초, 3.8초, 1.2 %를 보였다. 평균 RMSE에서도 DQN은 0.032로, PID의 0.045보다 우수했다. 이를 통해 DQN 기반 제어기의 효과성과 안정성이 입증되었으며, 항공기 제어 분야에서의 응용 가능성을 확인하였다.
Abstract
In this study, a deep neural network structure using DQN (Deep Q-Network) was designed and analyzed for anti-submarine helicopter hovering control. The simulation set the target position at (0, 0, 10) with a mass of 8,000 kg and a gravitational acceleration of 9.81 m/s2. The DQN agent trained over 500 episodes, achieving an average reward of 195. Compared to a PID controller, the DQN controller recorded a rise time of 0.5 seconds, a settling time of 3.5 seconds, and an overshoot of 0.5 %. In contrast, the PID controller showed a rise time of 0.47 seconds, a settling time of 3.8 seconds, and an overshoot of 1.2 %. The DQN controller also outperformed the PID controller with a lower average RMSE of 0.032 compared to 0.045. These results demonstrate the DQN controller's effectiveness and stability, highlighting its potential for aircraft control applications.
Keywords:
Deep Q-Network, Hovering Control, Anti-Submarine Helicopter, Reinforcement Learning, PID Controller키워드:
심층 Q 네트워크, 호버링 제어, 대잠 헬기, 강화학습, PID제어기Acknowledgments
이 논문은 2024년도 해군사관학교 해양연구소 및 해사교육진흥재단 지원을 받아 수행된 논문임.
References
- Mnih, V., Kor bak, T., Silver, D., & Rusu, A. A. (2015). Human-level Control through Deep Reinforcement Learning. Nature, 518(7540), 529-533. [https://doi.org/10.1038/nature14236]
- Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., & Erez, T. (2015). Continuous Control with Deep Reinforcement Learning. arXiv preprint arXiv:1509.02971.
- Haarnoja, T., Zhou, S., Hartikainen, K., & Levine, S. (2018). Soft Actor-critic: Off-policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. arXiv preprint arXiv:1812.05905.
- Kakade, S. & Langford, J. (2002). Approximately Optimal Approximate Reinforcement Learning. In Proceedings of the 19th International Conference on Machine Learning (ICML), 267-274.
- Duan, Y., Chen, X., Houthooft, R., Schulman, J., & Abbeel, P. (2016). Benchmarking Deep Reinforcement Learning for Continuous Control. In Proceedings of the 33rd International Conference on Machine Learning (ICML), 1329-1338.
- Zhang, Z., Yu, J., & Zeng, Z. (2020). Deep Reinforcement Learning for Robotic Manipulation: A review. IEEE Access, 8, 100478-100490.