[논문 요약] VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY

배움의 끝 2025. 11. 6. 17:11

2025. 11. 6. 17:11

제공된 논문 "VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY"에 대한 상세한 내용을 다음과 같이 정리해 드립니다.

이 문서는 Jiayi Zhang, Simon Yu, Derek Chong 등 스탠포드 대학교, 노스이스턴 대학교, 웨스트 버지니아 대학교 소속 연구자들이 작성한 논문입니다.

1. 논문 핵심 요약

이 논문은 대규모 언어 모델(LLM)이 후속 학습(post-training alignment), 특히 인간 피드백 기반 강화 학습(RLHF)을 거치면서 출력의 다양성이 줄어드는 '모드 붕괴(mode collapse)' 현상에 주목합니다.

연구진은 이 문제의 근본 원인이 기존에 알려진 알고리즘적 한계가 아니라, 선호도 데이터 자체에 내재된 '전형성 편향(typicality bias)' 때문이라고 주장합니다. 이는 인지 심리학에 기반한 것으로, 인간 평가자가 창의적이거나 특이한 답변보다 더 친숙하고 일반적인(typical) 텍스트를 체계적으로 선호하는 경향을 말합니다.

이에 대한 해결책으로, 연구진은 별도의 학습이 필요 없는(training-free) 간단한 프롬프트 전략인 **'구술 샘플링(Verbalized Sampling, VS)'**을 제안합니다. VS는 LLM에게 단일 응답을 요구하는 대신, "응답 5개와 각각의 해당 확률을 생성해 줘"와 같이 응답 집합에 대한 확률 분포를 '구술(verbalize)'하도록 요청합니다.

실험 결과, VS는 창의적 글쓰기(시, 이야기, 농담), 대화 시뮬레이션, 개방형 QA, 합성 데이터 생성 등 다양한 작업에서 다양성을 크게 향상시켰으며, 사실적 정확성이나 안전성은 저해하지 않았습니다.

2. 문제점: 모드 붕괴 (Mode Collapse)

LLM은 사전 학습(pre-training) 단계에서는 매우 다양한 텍스트를 생성할 잠재력을 갖추고 있습니다.
하지만 RLHF와 같은 후속 정렬(alignment) 과정을 거치면서 모델은 특정 소수의 "모드", 즉 좁은 범위의 응답만을 선호하게 되며, 이로 인해 전반적인 출력 다양성이 심각하게 감소합니다.
이러한 모드 붕괴 현상은 창의적 글쓰기, 소셜 시뮬레이션, 합성 데이터 생성 등 다양한 응용 분야에서 LLM의 효과를 제한하는 심각한 문제입니다.

3. 핵심 원인: 전형성 편향 (Typicality Bias)

연구진은 모드 붕괴의 핵심 원인을 데이터 수준에서 찾았습니다.

가설: 기존 연구들은 모드 붕괴를 보상 모델의 불완전성 등 알고리즘의 한계로 돌렸습니다. 하지만 이 논문은 문제가 더 근본적인 '데이터'에 있으며, 바로 인간의 '전형성 편향'이 원인이라고 주장합니다.
인지 심리학적 근거: 인간은 '단순 노출 효과(mere-exposure effect)', '가용성 휴리스틱(availability heuristic)', '처리 유창성(processing fluency)' 등으로 인해 더 친숙하고, 예측 가능하며, 처리하기 쉬운 텍스트를 더 높게 평가하는 인지적 경향이 있습니다.
이론적 모델링: 연구진은 인간의 보상($r(x,y)$)을 '실제 과업 유용성($r_{true}$)'과 '전형성 편향($\alpha \log \pi_{ref}$)'의 합으로 모델링했습니다. 여기서 $\pi_{ref}$는 사전 학습된 기본 모델의 로그 확률로, '전형성'의 대리 지표로 사용되었습니다.
실증적 검증: HELPSTEER라는 선호도 데이터셋을 분석한 결과, '정확성($r_{true}$)' 등급이 동일한 두 응답 사이에서, 인간 평가자들은 사전 학습 모델(Llama 3.1 405B 등)이 더 전형적이라고 판단한(즉, 로그 확률이 높은) 응답을 '도움이 됨'으로 선택할 확률이 유의미하게 높았습니다.
모드 붕괴 메커니즘: 이 편향($\alpha > 0$)이 RLHF 최적화 과정에 포함되면, 최종 정책($\pi^{*}$)은 기본 모델($\pi_{ref}$)의 분포를 $\gamma = 1 + \frac{\alpha}{\beta} > 1$ 만큼 '첨예하게(sharpening)' 만듭니다. 농담이나 이야기처럼 '정답'이 정해지지 않아 실제 유용성($r_{true}$)이 비슷한(flat) 작업에서는, 이 '전형성 편향'이 유일한 결정 요인(tie-breaker)으로 작용하여, 모델이 $\pi_{ref}$ 분포상에서 가장 확률이 높은, 즉 가장 전형적인 단 하나의 응답(mode)으로 붕괴하도록 만듭니다.

4. 제안된 해결책: 구술 샘플링 (Verbalized Sampling, VS)

연구진은 이 문제를 해결하기 위해 모델을 재학습하는 대신, 추론 시(inference-time) 프롬프팅 전략을 수정하는 '구술 샘플링(VS)'을 제안합니다.

핵심 아이디어: "서로 다른 프롬프트는 서로 다른 모드로 붕괴한다"는 것입니다.
1. 인스턴스-레벨 프롬프트 (기존): "커피 농담 해줘". 이 프롬프트에 대한 '가장 가능성 높은 응답'은 가장 전형적인 특정 농담 1개입니다 (예: "커피가 고소한 이유? 머그(Mug) 당해서!").
2. 분포-레벨 프롬프트 (VS): "커피 농담 5개와 각각의 확률을 생성해 줘". 이 프롬프트에 대한 '가장 가능성 높은 응답'은 다양한 농담으로 구성된 '분포' 그 자체입니다. 즉, 모델이 사전 학습 때 배운 다양한 농담 분포를 근사하게 됩니다.
실제 프롬프트: VS는 시스템 프롬프트를 통해 모델에게 <response> 태그 안에 <text>와 <probability>를 포함하는 5개의 응답 세트를 생성하도록 지시합니다.
VS 변형:
- VS-Standard: 기본적인 VS 프롬프트.
- VS-CoT: VS 프롬프트에 연쇄적 사고(Chain-of-Thought)를 결합하여 먼저 생각하게 함.
- VS-Multi: VS를 여러 턴(turn)에 걸쳐 수행하여 더 많은 샘플을 생성.

5. 주요 실험 및 결과

연구진은 GPT, Gemini, Claude 등 최신 LLM들을 대상으로 4가지 주요 영역에서 실험을 수행했습니다.

🧠 1. 창의적 글쓰기 (시, 이야기, 농담)

결과: VS-Standard, VS-CoT, VS-Multi는 모든 창의적 글쓰기 작업에서 기존의 직접 프롬프트(Direct)나 리스트 프롬프트(Sequence)보다 압도적으로 높은 의미론적 다양성을 달성했습니다.
품질 유지: VS-CoT와 VS-Multi는 다양성을 극대화하면서도 LLM 평가자(Claude 3.7) 기준 품질 저하가 거의 없거나 오히려 향상되어, '다양성-품질 트레이드오프'의 파레토 최적 전선(Pareto front)을 밀어냈습니다.
창발적 경향: 더 큰 모델(예: GPT-4.1)일수록 VS로 인한 다양성 향상 폭이 소형 모델(예: GPT-4.1-Mini)보다 1.5~2배 더 컸습니다.
정성적 평가: "안녕이라는 말도 없이(Without a goodbye)"라는 프롬프트에 대해, Direct 프롬프트는 연인의 실종이라는 좁은 주제만 반복했지만, VS는 '이메일 이별 통보', '우주의 마지막 별이 꺼짐', '음악이 갑자기 멈춤' 등 매우 창의적이고 다양한 이야기를 생성했습니다.
인간 평가: 실제 인간 평가자들도 VS-Standard로 생성된 결과물이 Direct나 Sequence보다 훨씬 더 이질적(다양성 높음)이라고 평가했습니다.
다양성 튜닝: VS는 프롬프트에 "확률이 0.1 미만인 응답 생성"과 같이 확률 임계값을 조절하여 생성물의 다양성을 쉽게 튜닝할 수 있음을 보여주었습니다.

🗣️ 2. 대화 시뮬레이션

과업: 'Save the Children' 기부를 설득하는 대화에서 '설득 당하는 사람(persuadee)' 역할 시뮬레이션.
결과:
- 기부금 분포: Direct 프롬프트의 시뮬레이션은 실제 인간의 기부금 분포와 큰 차이를 보였으나, VS를 사용한 시뮬레이션은 실제 인간의 기부금 분포와 매우 유사해졌습니다.
- 언어 스타일: VS는 Direct보다 훨씬 다양한 어휘(Distinct-N)와 의미론적 다양성을 보여주며, 인간의 수준에 근접했습니다.

❓ 3. 개방형 QA (Enumerative Open-Ended QA)

과업: "미국 주(US state) 이름 대기"와 같이 정답이 많고 유효성이 동등한 질문.
결과:
- 분포 일치도 (KL Divergence): VS 방식은 Direct나 CoT 방식보다 KL 발산 값이 현저히 낮아, 사전 학습 데이터(RedPajama)의 실제 분포에 훨씬 더 가깝게 응답 분포를 생성했습니다.
- 커버리지 (Coverage-N): VS는 훨씬 더 넓은 범위의 정답(더 많은 주 이름)을 생성했습니다.
- 정확성 (Precision): 이러한 다양성 증가는 정확성(Precision)을 전혀 희생시키지 않았습니다 (정확도 거의 1.0 유지).

📊 4. 합성 데이터 생성

과업: LLM(GPT-4.1 등)으로 1,000개의 합성 수학 문제를 생성하고, 이 데이터로 더 작은 모델(Qwen 등)을 SFT.
목표: 더 다양한 합성 데이터가 하위 모델의 성능을 향상시키는지 확인.
결과:
- VS (승리): VS-Standard, VS-CoT, VS-Multi로 생성된 데이터를 학습한 모델이 하위 수학 벤치마크에서 **가장 높은 성능(평균 37.5%)**을 기록했습니다.
- Direct (패배): 반면, 모드 붕괴된 Direct 프롬프트로 생성된 데이터를 학습한 모델은 **성능이 오히려 하락(30.6%)**하여, 기준선(32.8%)보다도 낮았습니다.
음성 데이터: VS는 '그럴싸하지만 틀린(negative)' 합성 데이터도 더 다양하게 생성했습니다. 이 다양한 음성 데이터를 오프라인 RL 학습에 활용했을 때, 모델 정확도가 순수 양성 데이터만 학습했을 때(34.12%)보다 더 향상(36.81%)되었습니다.

6. 주요 성과 및 시사점

새로운 원인 규명: LLM의 모드 붕괴가 '전형성 편향'이라는 인간 선호도 데이터의 근본적인 속성에서 비롯됨을 이론적, 실증적으로 규명했습니다.
간단하고 강력한 해결책: 별도 학습 없이 프롬프트 수정만으로 모드 붕괴를 완화하고 LLM의 잠재된 다양성을 복원하는 '구술 샘플링(VS)'을 제안했습니다.
안전성 및 정확성 유지: VS는 다양성을 크게 향상시키면서도, 사실적 정확성(Commonsense QA)이나 안전성(StrongReject 벤치마크에서 97% 이상 거부율 유지)을 저해하지 않았습니다.
모델 능력 확장: VS는 특히 더 유능한(capable) 대형 모델에서 더 큰 성능 향상을 이끌어내어, 모델의 복잡한 추론 능력을 활용해 복잡성을 이점으로 전환시켰습니다.

이 연구는 모드 붕괴를 데이터 중심적 관점에서 새롭게 조명하고, 추론 시점에 적용 가능한 실용적인 해결책을 제시했다는 점에서 큰 의미가 있습니다.

저작자표시 (새창열림)

'딥러닝' 카테고리의 다른 글

Self-Attention (셀프 어텐션) vs. 채널 어텐션 (Channel Attention) 비교 (0)	2025.11.17
PokéChamp: An Expert-level Minimax Language Agent \| ICML 2025 Spotlight (0)	2025.11.09
대규모 언어 모델(LLM)의 '추론(Inference)'을 위한 '오토스케일링(Autoscaling)' 기술 소개 (0)	2025.11.06
합성 데이터 확장성 - 'Beyond Web' 논문 (0)	2025.11.06
로봇 학습 위한 언어 유도 보상 - Video Rewind (0)	2025.11.06

LLM과 세상 탐험