연구주제 국문:LLM 학습 데이터셋 내 합성 데이터 증가에 따른 모델 붕괴 현상 분석 및 완화 전략 연구
연구주제 영문:Analysis of Model Collapse Phenomenon and Mitigation Strategies According to the Increase of Synthetic Data in LLM Training Datasets
작성자 국문:김건우, 김하준, 연승하, 김여명, 김민승 / 경남과학고등학교
작성자 영문:Kim KunWoo, Kim Ha Jun, Kim Min Seung, Kim Yeo Myoung, Yeon Seungha / Gyeongnam Science High School
초록:
본 연구는 대규모 언어 모델(LLM) 학습 데이터 내 AI 생성 합성 데이터가 나타내는 성능의 저하, 즉 ‘모델 붕괴’ 현상을 정량적으로 분석하고, 이에 대한 실질적인 해결 방안을 모색하는 것을 목표로 수행한다. 본 연구에서는 Llama 3 8B 모델을 기반으로, 합성 데이터의 생성 세대(G1, G2, G3) 와 학습 데이터 내 혼합 비율(25%, 50%, 100%)를 두 요인으로 설정하여 실험을 진행하였다. 총 아홉 가지 조건 각각에 대해 시드를 5개로 달리해 반복 학습함으로써 통계적 신뢰성을 확보하였다. 2-way ANOVA 결과, 생성 세대와 합성 비율 모두 유의한 주효과를 보였고 두 요인 간 상호작용도 통계적으로 유의미했다. 특히 G3 세대의 합성 데이터만으로 학습한(100%) 모델은 기준 모델 대비 MMLU가 65.1에서 23.5로 하락하여 63.9% 감소를 기록, 명확한 성능 붕괴를 확인했다. 한편, 문제 유출을 엄격히 차단한 설정에서 RoBERTa 기반 탐지기는 92.8%의 높은 탐지 정확도를 보였고, Perplexity 기반 데이터 필터링은 성능 저하를 유의하게 완화하였다. 본 연구는 모델 붕괴의 핵심 원인을 정량적으로 드러내고, 합성 데이터 활용을 위한 실증적 가이드라인을 제시한다는 점에서 의의를 갖는다.
주제어: LLM, 모델 붕괴, 합성 데이터, 표현 다양성 붕괴, Llama 3, 2-way ANOVA