MIL-BERT: 군사 도메인 특화 한국어 사전학습 언어모델
© 2023 Korea Society for Naval Science & Technology
초록
본 논문에서는 추가 사전학습을 통한 군사 도메인에 특화된 BERT 모델을 제안한다. 기존 BERT 모델은 범용 코퍼스로 학습되어 특징 도메인에서의 활용에 최적화되어 있지 않다. 모델 학습을 위해 국방일보와 군사뉴스로부터 110만 개의 군사 문장과 6,900개의 군사용어를 수집하여 코퍼스를 구축하였다. 이후, 토크나이저를 구축하고 MLM학습을 통해 모델을 훈련했다. 또한, 성능 평가를 위해 MIL-BERT와 기존 한국어 BERT 모델인 KcBERT와 KoBERT 간의 군사 문장 분류 실험을 진행했다. 실험 결과, MIL-BERT가 정확도 측면에서 2 % 우수한 성능을 보였다.
Abstract
In this paper, we propose a specialized BERT model that is tailored to the military domain through additional pre-training. Existing BERT models are trained on generic corpora and are not optimized for specific domains. To address this limitation, we collected 1.1 million military sentences and 6,900 military terms from military news to construct a corpus for model training. Subsequently, we developed a tokenizer and trained the model using masked language modeling (MLM). To evaluate the performance, we conducted military sentence classification experiments comparing MIL-BERT with existing Korean BERT models, KcBERT and KoBERT. The experimental results showed that MIL-BERT outperformed the other models with a 2 % higher accuracy.
Keywords:
Natural Language Processing, Military Corpus, Pre-trained language model, Sentence Classification, Deep Learning키워드:
자연어처리, 군사 언어, 사전학습 언어모델, 문장 분류, 심층 학습References
- Dpectrum. “What is Natural Language Processing (NLP) in the field of Artificial Intelligence?” https://dpectrum.app/blog/89
- 김동규, 박장원, 이동욱, 오성우, 권성준, 이인용, 최동원. KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용. 지능정보연구, Vol. 28, No.2, 2022, pp.191-206.
- Devlin, Jacob, et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” arXiv preprint arXiv:1810.04805, (2018).
- Rogers, Anna, et al. "Investigating Transferability in Pretrained Language Models." arXiv preprint arXiv:2009.13393 (2020).
- 한민아, 김윤하, 김남규. (2022). 도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향. 지능정보연구, Vol. 28, No. 4, 251-273.
- Beltagy, Iz, Kyle Lo, and Arman Cohan. "SciBERT: A Pretrained Language Model for Scientific Text." arXiv preprint arXiv:1903.10676, (2019). [https://doi.org/10.18653/v1/D19-1371]
- Lee, Jinhyuk, et al. "BioBERT: A Pretrained Biomedical Language Representation Model for Biomedical Text Mining." Bioinformatics Vol. 36, No.4 (2020): pp.1234-1240. [https://doi.org/10.1093/bioinformatics/btz682]
- Araci, Dogu. "FinBERT: Financial Sentiment Analysis with Pretrained Language Models." arXiv preprint arXiv:1908.10063, (2019).
- Chalkidis, Ilias, et al. "LEGAL-BERT: The Muppets Straight Out of Law School." arXiv preprint arXiv:2010.02559, (2020). [https://doi.org/10.18653/v1/2020.findings-emnlp.261]
- AI Times. "AI, 군사작전에 교묘히 스며들기 시작." Accessed July 13, 2022. https://www.aitimes.com/news/articleView.html?idxno=145765, .
- 국방기술진흥연구소. “미래국방 2030 기술전략.” 2022
- SKTBrain. “Korean BERT Pretrained Cased (KoBERT).” https://github.com/SKTBrain/KoBERT, .
- Jihye Lee, Hyeonmin Ha, Byung-Gon Chun. (2022). Survey on Recent Continual Learning Studies in NLP. 한국정보과학회 학술발표논문집, pp. 999-1001.
- Jaemin Lee, Younggyun Hahm, Donggyu Lee, and Hwanjo Yu. A Further Pretrained Language Model with Domain-specific Corpora for Question Answering in Korean. (2021). arXiv. 2104.06323
- Collobert, Ronan, et al. “Natural Language Processing (Almost) from Scratch.” Journal of Machine Learning Research Vol.15 (2014): pp. 335-366.
- 서혜진, 신정아.(2020).딥러닝을 활용한 감정 분석 과정에서 필요한 데이터 전처리 및 형태 변형. 영어학, Vol. 20, pp. 42-63.
- Yangoos57. "Fine-Tuning with Pretrained Models." https://yangoos57.github.io/blog/DeepLearning/paper/Finetuning/, .