PokéChamp: An Expert-level Minimax Language Agent | ICML 2025 Spotlight

배움의 끝 2025. 11. 9. 01:14

2025. 11. 9. 01:14

https://www.youtube.com/watch?v=Mys1Cg2W20w&t=1107s

PokéChamp: 전문가 수준의 포켓몬 AI

1. 핵심 성과 및 개요

전문가 수준 달성: PokéChamp는 '포켓몬 쇼다운'이라는 온라인 배틀 시뮬레이터에서 1300~1500 ELO 점수를 달성했습니다. 이는 **전체 인간 플레이어의 상위 10%**에 해당하는 전문가 수준입니다 [00:14, 27:31].
핵심 아이디어: 이 AI는 대규모 언어 모델(LLM)이 텍스트 학습을 통해 얻은 '인간의 전략에 대한 사전 지식(prior)'을 활용합니다. 그리고 이 지식을 '미니맥스(Minimax)'라는 고전적인 탐색 알고리즘과 결합하여 복잡한 게임에서 강력한 성능을 발휘합니다 [00:27].
자체 학습 불필요: 기존의 AlphaGo와 같은 AI가 수백만 번의 '셀프 플레이(self-play)'를 통해 학습하는 것과 달리, PokéChamp는 별도의 게임 전용 학습이나 강화 학습 없이, LLM의 사전 훈련된 지식과 탐색 알고리즘만으로 높은 성능을 달성했습니다 [03:00, 27:54].

2. 포켓몬 배틀이 어려운 이유 포켓몬 배틀은 AI에게 매우 도전적인 과제입니다.

복잡성: 1,000종이 넘는 포켓몬, 900개 이상의 기술, 복잡한 상성 및 능력치 시스템이 존재합니다 [00:42].
부분적 관찰 가능성(Partially Observable): 상대방의 포켓몬, 기술, 능력치, 아이템 등 많은 정보가 숨겨져 있습니다 [01:15, 06:13].
동시 행동: 체스나 바둑과 달리, 두 플레이어가 동시에 행동을 선택합니다. 상대가 무엇을 할지 예측하면서 나의 행동을 결정해야 합니다 [01:00].

3. PokéChamp의 작동 원리: LLM 기반 미니맥스 탐색 PokéChamp는 LLM을 핵심 두뇌로 사용하되, 고전적인 게임 트리 탐색(미니맥스)을 결합한 독특한 구조를 가집니다 [12:09].

1. 플레이어 행동 제안 (LLM):
- 현재 게임 상황에서 모든 합법적인 행동(9~13개)을 다 고려하는 대신, LLM에게 "전략적으로 가장 의미 있는" 행동 3~4개를 제안하도록 요청합니다. 이는 탐색의 복잡성을 크게 줄여줍니다 [10:04].
2. 상대방 행동 모델링 (LLM):
- 내가 제안된 행동을 했을 때, 상대방이 어떻게 반응할지 LLM이 예측합니다. 이때, 상대방의 숨겨진 정보를 고려하여 여러 가지 그럴듯한 반응을 샘플링합니다 [10:38].
3. 시뮬레이션 및 평가 (LLM + 도구):
- 제안된 수(나의 행동 + 상대의 반응)가 실행되었을 때의 게임 상태를 시뮬레이션합니다 [11:04].
- 트리의 끝(Leaf node)에 도달하면, LLM이 해당 상태가 얼마나 유리한지 1~100점 척도로 평가합니다 (승률이 아닌 선호도 점수) [11:44, 20:03].
4. 최적의 수 선택:
- 이 평가 점수들을 미니맥스 알고리즘에 따라 역전파하여, 현재 상황에서 가장 높은 기대값을 가진 행동을 최종적으로 선택합니다 [12:02].

4. 핵심 기술적 과제와 해결책

과제 1: LLM의 부정확한 계산
- LLM은 전략적 직관은 뛰어나지만, "딸기(strawberry)에 R이 몇 개 있나?" 같은 단순한 문자열 문제나 복잡한 포켓몬 데미지 공식을 정확하게 계산하는 데는 취약합니다 [13:50, 14:25].
- 해결책 (도구 사용): LLM이 직접 계산하는 대신, '데미지 계산기'라는 외부 도구를 호출하여 정확한 계산 결과를 얻고, 이를 다시 전략적 판단에 활용합니다 [14:53].
과제 2: 상대방의 숨겨진 정보 (부분 관찰)
- 시뮬레이션을 하려면 상대방의 숨겨진 능력치나 아이템을 알아야 합니다.
- 해결책 (베이지안 추론): 4백만 개 이상의 실제 인간 배틀 리플레이 데이터를 수집했습니다 [16:45]. 이 데이터를 기반으로 베이지안 추론을 사용, 상대방이 특정 행동을 보였을 때(예: 불꽃 타입 공격에 교체해 들어옴) 어떤 숨겨진 특성(예: '두꺼운지방' 능력)을 가졌을 확률을 계산합니다 [18:03, 18:37].

5. 실험 결과 및 시사점

알고리즘의 우수성: 강력한 규칙 기반 AI인 'AbyssalBot'을 상대로 PokéChamp (GPT-4o)가 90%의 승률을 기록했습니다. 반면, 단순 프롬프팅(PokeLM)은 60%에 그쳐, 미니맥스 탐색 알고리즘의 효과를 입증했습니다 [22:32, 23:02].
작은 모델의 큰 성과: 놀랍게도 Gemma 3 (40억, 10억 파라미터) 같은 매우 작은 LLM에 PokéChamp의 알고리즘(스캐폴딩)을 적용했을 때, Gemini 2.5 Flash 같은 훨씬 더 큰 최신 모델보다 높은 ELO를 기록했습니다 [25:22].
결론: AI의 성능은 단순히 LLM의 규모(Scale)에만 의존하는 것이 아니라, **모델의 능력을 효과적으로 활용하는 알고리즘 구조(Scaffolding)**가 결정적이라는 것을 시사합니다 [26:33, 32:55].

왜 큰 모델이 작은 모델보다 성능이 낮게 나온거야?

네, 그 부분은 영상의 핵심적인 발견 중 하나이며 매우 흥미로운 지점입니다.

직관과는 다르게 더 큰 최신 모델(Gemini 2.5 Flash 등)이 더 작고 오래된 모델(Gemma 3 등)보다 성능이 낮게 나온 이유는, 이 AI(PokéChamp)가 모델의 '규모(Scale)'에 의존하는 것이 아니라 '구조(Scaffolding)'에 의존하기 때문입니다.

더 구체적인 이유는 크게 두 가지로 추측해 볼 수 있습니다.

1. 알고리즘(구조)의 힘 > 모델의 힘

PokéChamp의 핵심 성능은 LLM 자체가 모든 것을 해결하는 것이 아니라, 미니맥스 탐색, 도구 사용, 베이지안 추론이라는 강력한 알고리즘 '구조'에서 나옵니다.

LLM의 역할은 게임의 모든 승패를 계산하는 것이 아닙니다.
LLM은 "전략적으로 유의미한 수 제안하기", "상대 행동 예측하기", "현재 상태가 얼마나 유리한지 점수 매기기" 등 제한적이고 구체적인 작업을 수행합니다.
Gemma 3와 같은 작은 모델이라도 이 정도의 '전략적 직관'을 제공하기엔 충분했을 수 있습니다.
일정 수준 이상의 직관만 제공된다면, 최종 성능을 결정하는 것은 LLM의 크기가 아니라 이 직관을 활용하는 미니맥스 탐색 알고리즘의 효율성입니다.

2. "얼라인먼트 세금" (Alignment Tax) 현상

이는 영상에서 직접 언급되진 않았지만, LLM 연구에서 널리 논의되는 현상이며 이 결과를 가장 잘 설명하는 가설입니다.

대형 모델의 목적: Gemini나 GPT-4o와 같은 최신 대형 모델은 '유용하고(helpful)', '정직하며(honest)', '무해하게(harmless)' 행동하도록 강력한 '얼라인먼트(alignment)' 훈련을 받습니다.
경쟁 게임의 목적: 반면, 포켓몬 배틀은 상대를 속이고(bluffing), 함정에 빠뜨리고, 이기는 것이 목적인 제로섬(zero-sum) 경쟁입니다.
성능 저하: 이처럼 '착하게' 행동하도록 훈련된 대형 모델들은, 상대를 이겨야 하는 '공격적'이고 '경쟁적인' 추론에서는 오히려 성능이 저하될 수 있습니다.에서처럼 규칙을 어기지 않으면서도 편법을 찾는 능력(예: '치사한' 전략)이 얼라인먼트 과정에서 약화되었을 수 있습니다.
작은 모델의 이점: 반면 Gemma 3 같은 작거나 덜 다듬어진 모델은 이러한 얼라인먼트가 약합니다. 따라서 포켓몬 배틀의 **'순수한 전략적 추론'**이나 **'공격성'**은 오히려 더 잘 보존하고 있을 수 있습니다.

저작자표시 (새창열림)

'딥러닝' 카테고리의 다른 글

[RL] PPO, DPO, GRPO 비교 (0)	2025.11.18
Self-Attention (셀프 어텐션) vs. 채널 어텐션 (Channel Attention) 비교 (0)	2025.11.17
[논문 요약] VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY (0)	2025.11.06
대규모 언어 모델(LLM)의 '추론(Inference)'을 위한 '오토스케일링(Autoscaling)' 기술 소개 (0)	2025.11.06
합성 데이터 확장성 - 'Beyond Web' 논문 (0)	2025.11.06

LLM과 세상 탐험