https://www.youtube.com/watch?v=Mys1Cg2W20w&t=1107s
PokéChamp: 전문가 수준의 포켓몬 AI
1. 핵심 성과 및 개요
- 전문가 수준 달성: PokéChamp는 '포켓몬 쇼다운'이라는 온라인 배틀 시뮬레이터에서 1300~1500 ELO 점수를 달성했습니다. 이는 **전체 인간 플레이어의 상위 10%**에 해당하는 전문가 수준입니다 [00:14, 27:31].
- 핵심 아이디어: 이 AI는 대규모 언어 모델(LLM)이 텍스트 학습을 통해 얻은 '인간의 전략에 대한 사전 지식(prior)'을 활용합니다. 그리고 이 지식을 '미니맥스(Minimax)'라는 고전적인 탐색 알고리즘과 결합하여 복잡한 게임에서 강력한 성능을 발휘합니다 [00:27].
- 자체 학습 불필요: 기존의 AlphaGo와 같은 AI가 수백만 번의 '셀프 플레이(self-play)'를 통해 학습하는 것과 달리, PokéChamp는 별도의 게임 전용 학습이나 강화 학습 없이, LLM의 사전 훈련된 지식과 탐색 알고리즘만으로 높은 성능을 달성했습니다 [03:00, 27:54].
2. 포켓몬 배틀이 어려운 이유 포켓몬 배틀은 AI에게 매우 도전적인 과제입니다.
- 복잡성: 1,000종이 넘는 포켓몬, 900개 이상의 기술, 복잡한 상성 및 능력치 시스템이 존재합니다 [00:42].
- 부분적 관찰 가능성(Partially Observable): 상대방의 포켓몬, 기술, 능력치, 아이템 등 많은 정보가 숨겨져 있습니다 [01:15, 06:13].
- 동시 행동: 체스나 바둑과 달리, 두 플레이어가 동시에 행동을 선택합니다. 상대가 무엇을 할지 예측하면서 나의 행동을 결정해야 합니다 [01:00].
3. PokéChamp의 작동 원리: LLM 기반 미니맥스 탐색 PokéChamp는 LLM을 핵심 두뇌로 사용하되, 고전적인 게임 트리 탐색(미니맥스)을 결합한 독특한 구조를 가집니다 [12:09].
- 1. 플레이어 행동 제안 (LLM):
- 현재 게임 상황에서 모든 합법적인 행동(9~13개)을 다 고려하는 대신, LLM에게 "전략적으로 가장 의미 있는" 행동 3~4개를 제안하도록 요청합니다. 이는 탐색의 복잡성을 크게 줄여줍니다 [10:04].
- 2. 상대방 행동 모델링 (LLM):
- 내가 제안된 행동을 했을 때, 상대방이 어떻게 반응할지 LLM이 예측합니다. 이때, 상대방의 숨겨진 정보를 고려하여 여러 가지 그럴듯한 반응을 샘플링합니다 [10:38].
- 3. 시뮬레이션 및 평가 (LLM + 도구):
- 4. 최적의 수 선택:
- 이 평가 점수들을 미니맥스 알고리즘에 따라 역전파하여, 현재 상황에서 가장 높은 기대값을 가진 행동을 최종적으로 선택합니다 [12:02].
4. 핵심 기술적 과제와 해결책
- 과제 1: LLM의 부정확한 계산
- 과제 2: 상대방의 숨겨진 정보 (부분 관찰)
5. 실험 결과 및 시사점
- 알고리즘의 우수성: 강력한 규칙 기반 AI인 'AbyssalBot'을 상대로 PokéChamp (GPT-4o)가 90%의 승률을 기록했습니다. 반면, 단순 프롬프팅(PokeLM)은 60%에 그쳐, 미니맥스 탐색 알고리즘의 효과를 입증했습니다 [22:32, 23:02].
- 작은 모델의 큰 성과: 놀랍게도 Gemma 3 (40억, 10억 파라미터) 같은 매우 작은 LLM에 PokéChamp의 알고리즘(스캐폴딩)을 적용했을 때, Gemini 2.5 Flash 같은 훨씬 더 큰 최신 모델보다 높은 ELO를 기록했습니다 [25:22].
- 결론: AI의 성능은 단순히 LLM의 규모(Scale)에만 의존하는 것이 아니라, **모델의 능력을 효과적으로 활용하는 알고리즘 구조(Scaffolding)**가 결정적이라는 것을 시사합니다 [26:33, 32:55].
왜 큰 모델이 작은 모델보다 성능이 낮게 나온거야?
네, 그 부분은 영상의 핵심적인 발견 중 하나이며 매우 흥미로운 지점입니다.
직관과는 다르게 더 큰 최신 모델(Gemini 2.5 Flash 등)이 더 작고 오래된 모델(Gemma 3 등)보다 성능이 낮게 나온 이유는, 이 AI(PokéChamp)가 모델의 '규모(Scale)'에 의존하는 것이 아니라 '구조(Scaffolding)'에 의존하기 때문입니다.
더 구체적인 이유는 크게 두 가지로 추측해 볼 수 있습니다.
1. 알고리즘(구조)의 힘 > 모델의 힘
PokéChamp의 핵심 성능은 LLM 자체가 모든 것을 해결하는 것이 아니라, 미니맥스 탐색, 도구 사용, 베이지안 추론이라는 강력한 알고리즘 '구조'에서 나옵니다.
- LLM의 역할은 게임의 모든 승패를 계산하는 것이 아닙니다.
- LLM은 "전략적으로 유의미한 수 제안하기", "상대 행동 예측하기", "현재 상태가 얼마나 유리한지 점수 매기기" 등 제한적이고 구체적인 작업을 수행합니다.
- Gemma 3와 같은 작은 모델이라도 이 정도의 '전략적 직관'을 제공하기엔 충분했을 수 있습니다.
- 일정 수준 이상의 직관만 제공된다면, 최종 성능을 결정하는 것은 LLM의 크기가 아니라 이 직관을 활용하는 미니맥스 탐색 알고리즘의 효율성입니다.
2. "얼라인먼트 세금" (Alignment Tax) 현상
이는 영상에서 직접 언급되진 않았지만, LLM 연구에서 널리 논의되는 현상이며 이 결과를 가장 잘 설명하는 가설입니다.
- 대형 모델의 목적: Gemini나 GPT-4o와 같은 최신 대형 모델은 '유용하고(helpful)', '정직하며(honest)', '무해하게(harmless)' 행동하도록 강력한 '얼라인먼트(alignment)' 훈련을 받습니다.
- 경쟁 게임의 목적: 반면, 포켓몬 배틀은 상대를 속이고(bluffing), 함정에 빠뜨리고, 이기는 것이 목적인 제로섬(zero-sum) 경쟁입니다.
- 성능 저하: 이처럼 '착하게' 행동하도록 훈련된 대형 모델들은, 상대를 이겨야 하는 '공격적'이고 '경쟁적인' 추론에서는 오히려 성능이 저하될 수 있습니다.에서처럼 규칙을 어기지 않으면서도 편법을 찾는 능력(예: '치사한' 전략)이 얼라인먼트 과정에서 약화되었을 수 있습니다.
- 작은 모델의 이점: 반면 Gemma 3 같은 작거나 덜 다듬어진 모델은 이러한 얼라인먼트가 약합니다. 따라서 포켓몬 배틀의 **'순수한 전략적 추론'**이나 **'공격성'**은 오히려 더 잘 보존하고 있을 수 있습니다.
'딥러닝' 카테고리의 다른 글
| [RL] PPO, DPO, GRPO 비교 (0) | 2025.11.18 |
|---|---|
| Self-Attention (셀프 어텐션) vs. 채널 어텐션 (Channel Attention) 비교 (0) | 2025.11.17 |
| [논문 요약] VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY (0) | 2025.11.06 |
| 대규모 언어 모델(LLM)의 '추론(Inference)'을 위한 '오토스케일링(Autoscaling)' 기술 소개 (0) | 2025.11.06 |
| 합성 데이터 확장성 - 'Beyond Web' 논문 (0) | 2025.11.06 |