한국해군과학기술학회
[ Article ]
Journal of the KNST - Vol. 6, No. 2, pp.201-206
ISSN: 2635-4926 (Print)
Print publication date 30 Jun 2023
Received 25 May 2023 Revised 12 Jun 2023 Accepted 29 Jun 2023
DOI: https://doi.org/10.31818/JKNST.2023.06.6.2.201

MIL-BERT: 군사 도메인 특화 한국어 사전학습 언어모델

허희순1 ; 윤창민1 ; 유영하1 ; 용석현1 ; 김두영2, *
1해군사관학교 사이버과학과 사관생도
2해군소령/해군사관학교 인공지능학과 부교수
MIL-BERT: Military Domain Specialized Korean Pre-trained Language Model
Hee-Soon Heo1 ; Chang-Min Yoon1 ; Young-Ha Ryu1 ; Seok-hyun Yong1 ; Dooyoung Kim2, *
1Midshipman, Dept. Cyber Science, Republic of Korea Naval Academy
2LCDR, ROK Navy/Associate Professor, Dept. of Artificial Intelligence, Republic of Korea Naval Academy

Correspondence to: *Dooyoung Kim Dept. of Artificial Intelligence, Republic of Korea Naval Academy Jungwon-ro, Jinhae-gu, Changwon-si, Gyungsangnam-do, 51704, Republic of Korea Tel: +82-2-907-5246 E-mail: dykim07@navy.ac.kr

© 2023 Korea Society for Naval Science & Technology

초록

본 논문에서는 추가 사전학습을 통한 군사 도메인에 특화된 BERT 모델을 제안한다. 기존 BERT 모델은 범용 코퍼스로 학습되어 특징 도메인에서의 활용에 최적화되어 있지 않다. 모델 학습을 위해 국방일보와 군사뉴스로부터 110만 개의 군사 문장과 6,900개의 군사용어를 수집하여 코퍼스를 구축하였다. 이후, 토크나이저를 구축하고 MLM학습을 통해 모델을 훈련했다. 또한, 성능 평가를 위해 MIL-BERT와 기존 한국어 BERT 모델인 KcBERT와 KoBERT 간의 군사 문장 분류 실험을 진행했다. 실험 결과, MIL-BERT가 정확도 측면에서 2 % 우수한 성능을 보였다.

Abstract

In this paper, we propose a specialized BERT model that is tailored to the military domain through additional pre-training. Existing BERT models are trained on generic corpora and are not optimized for specific domains. To address this limitation, we collected 1.1 million military sentences and 6,900 military terms from military news to construct a corpus for model training. Subsequently, we developed a tokenizer and trained the model using masked language modeling (MLM). To evaluate the performance, we conducted military sentence classification experiments comparing MIL-BERT with existing Korean BERT models, KcBERT and KoBERT. The experimental results showed that MIL-BERT outperformed the other models with a 2 % higher accuracy.

Keywords:

Natural Language Processing, Military Corpus, Pre-trained language model, Sentence Classification, Deep Learning

키워드:

자연어처리, 군사 언어, 사전학습 언어모델, 문장 분류, 심층 학습

References