LLM, 범용 패턴 기계로서의 능력

배움의 끝 2025. 11. 3. 23:53

2025. 11. 3. 23:53

https://www.youtube.com/watch?v=xCzPouKQNm0&pp=0gcJCQMKAYcqIYzv

제공해주신 YouTube 링크는 "Large Language Models as General Pattern Machines"라는 제목의 논문을 읽고 해설하는 스트리밍 영상입니다. 이 논문은 구글 딥마인드, 스탠포드 대학교, TU 베를린의 연구진이 작성했습니다.

영상의 주요 내용은 다음과 같습니다.

논문의 핵심 주장: LLM은 '범용 패턴 기계'

이 논문의 중심 아이디어는 대규모 언어 모델(LLM)이 단순히 텍스트를 완성하는 것을 넘어, 복잡하고 추상적인 토큰 시퀀스를 완성할 수 있는 '범용 패턴 기계(General Pattern Machines)'라는 것입니다 [00:33], [01:54].

언어 이상의 패턴 학습: LLM은 텍스트뿐만 아니라, ASCII 아트로 표현된 2D 그리드 패턴(추상적 추론 말뭉치, ARC) [02:05]이나 수학적 함수의 시퀀스(사인파) [13:11] 같은 다양한 비언어적 패턴도 학습하고 완성할 수 있습니다.
인-컨텍스트 학습(In-Context Learning): 이러한 능력은 별도의 추가 학습이나 미세 조정(fine-tuning) 없이, 몇 가지 예시(few-shot)를 프롬프트(컨텍스트)에 제공하는 것만으로도 발현됩니다 (제로샷) [02:45], [03:02].
토큰 불변성(Token Invariance): 가장 놀라운 발견 중 하나는, 패턴을 구성하는 토큰을 어휘집에서 무작위로 샘플링한 단어로 대체해도 LLM이 여전히 패턴을 인식하고 유효한 솔루션을 생성한다는 것입니다 [02:21], [11:10]. 이는 LLM이 토큰의 의미(semantic)가 아닌, 토큰 간의 구조적 관계, 즉 '패턴' 자체를 학습했음을 시사합니다 [06:28], [56:12].

3가지 패턴 처리 능력 및 로보틱스 적용

논문은 LLM의 패턴 처리 능력을 세 가지 범주로 나누어 탐구합니다 [18:49].

시퀀스 변환 (Sequence Transformation):
- 입력 시퀀스를 특정 규칙에 따라 출력 시퀀스로 변환하는 능력입니다.
- ARC 벤치마크: 2D 그리드 패턴의 변환 예시를 보고 [08:29], 새로운 입력에 대한 올바른 출력을 예측하게 했습니다. 여기서 토큰화의 중요성이 발견되었는데, '86'처럼 숫자를 묶어서 토큰화하면 성능이 저조했지만, '8 6'처럼 공백을 넣어 개별 숫자로 토큰화하자 성능이 크게 향상되었습니다 [53:17], [53:34].
- PCFG 벤치마크: 데이터 오염 문제를 피하기 위해, 연구진이 절차적으로 생성한 새로운 패턴 벤치마크(PCFG)에서도 LLM의 우수한 성능이 확인되었습니다 [59:05], [01:05:32].
시퀀스 완성 (Sequence Completion):
- 주어진 시퀀스의 다음 부분을 예측하여 완성하는 능력입니다.
- 사인파 예측: 진폭이 증가하는 사인파의 일부 데이터 포인트를 보고, 나머지 부분을 성공적으로 외삽(extrapolation)해냈습니다 [13:11], [01:10:51].
- 로봇 모션: 사람이 로봇 팔을 잡고 움직여 시연한 동작(kinesthetic demonstration)의 일부(예: 테이블 닦기, 화이트보드에 고리 그리기)를 입력하면 [19:55], LLM이 그 패턴을 파악하여 다음 동작을 이어서 생성해냈습니다 [01:12:49], [01:15:31].
시퀀스 개선 (Sequence Improvement):
- 여러 시퀀스(궤적)와 각 시퀀스에 대한 보상(reward) 값을 컨텍스트로 제공받아, 더 나은(보상이 높은) 시퀀스를 생성하도록 하는 능력입니다 [01:17:00].
- 로보틱스 적용:
  - 카트폴(Cart-Pole): 막대를 쓰러트리지 않고 균형을 잡는 고전적인 제어 문제에서 [05:04], LLM은 보상이 낮은 궤적과 높은 궤적을 보고 스스로 균형 잡는 법(진동하는 행동)을 학습했습니다 [01:24:46].
  - 클리커 트레이닝(Clicker Training): 개를 훈련시킬 때처럼, 로봇이 올바른 행동(목표 지점 도달)에 가까워질 때마다 인간이 '클릭'(긍정적 보상 신호)을 주자, LLM이 이 희소하고 이진적인 보상 신호만으로도 목표를 달성하는 궤적을 학습했습니다 [14:22], [01:25:11].
  - 궤적 정렬: 보상이 낮은 순서에서 높은 순서로 궤적 예시를 정렬하여 제공했을 때 성능이 가장 좋았습니다 [21:31].

결론 및 논의

스트리머는 이 논문이 LLM이 단순히 언어 모델을 넘어, 현실 세계의 모든 알고리즘을 대체할 수 있는 '범용 지능'의 가능성을 보여준다고 평가합니다 [38:01], [01:26:41]. 예를 들어, 미래의 로봇은 여러 개의 복잡한 제어기나 소프트웨어 대신, 센서 입력부터 모터 출력까지 모든 것을 처리하는 단 하나의 거대한 LLM 칩으로 구동될 수도 있다고 전망합니다 [01:01:07].

물론 현재로서는 지연 시간(latency), 컨텍스트 크기 제한, 높은 연산 비용 등의 한계가 명확하지만 [05:17], [01:29:32], 이는 모델의 소형화 및 효율화 연구를 통해 점차 해결될 것으로 예상됩니다.

저작자표시 (새창열림)

'딥러닝' 카테고리의 다른 글

로봇 학습 위한 언어 유도 보상 - Video Rewind (0)	2025.11.06
ASI (Artificial Super Intelligence, 인공 초지능) (0)	2025.11.06
LLM은 압축이다 논문 상세 분석 (0)	2025.11.03
모델로 모델 훈련하기 (0)	2025.11.03
브룩스의 "표상 없는 지능" (0)	2025.11.03

LLM과 세상 탐험