1. Continuous Trend Labeling (Wu et al., 2020)

핵심: "가격이 올랐는가?"가 아니라 "추세가 얼마나 견고한가?"를 측정

기존 방식은 특정 시점의 가격만 보고 레이블링하기 때문에, 가격이 요동치다가 우연히 높게 끝난 경우도 '상승'으로 잘못 판단할 수 있습니다. 이 기법은 추세의 강도와 일관성을 봅니다.

  • 작동 원리 (Trend Scanning):
    • 단순 등락률 대신, 윈도우 내 가격 움직임에 대해 **선형 회귀(Linear Regression)**를 수행합니다.
    • 회귀선의 **기울기(Slope)**와 그 유의성을 나타내는 **$t$-값($t$-value)**을 계산합니다.
    • $t$-값이 특정 임계값(예: 2.0)을 넘으면 확실한 상승 추세, -2.0 미만이면 하락 추세로 레이블링합니다.
  • 장점: 변동성이 큰 횡보장에서 발생하는 '거짓 신호(False Positive)'를 효과적으로 걸러냅니다.
  • 활용: 추세 추종(Trend Following) 전략의 머신러닝 모델 학습용 타겟으로 매우 적합합니다.

2. P-Triple Barrier Labeling (페어 트레이딩용)

핵심: 단일 자산 가격이 아닌, 두 자산 간의 "스프레드(Spread)"에 배리어 적용

일반적인 트리플 배리어는 단일 주식의 가격을 기준으로 하지만, 페어 트레이딩(Pair Trading)은 두 자산의 가격 차이(Spread)가 **평균으로 회귀(Mean Reversion)**하는 성질을 이용합니다.

  • 작동 원리:
    1. 자산 구성: 자산 A와 자산 B의 스프레드(또는 Z-Score)를 계산합니다.
    2. 배리어 설정:
      • 상단 배리어(Profit Take): 스프레드가 평균(0)으로 돌아오는 지점.
      • 하단 배리어(Stop Loss): 스프레드가 평균에서 너무 멀어져 통계적 범위를 벗어나는 지점 (손절 라인).
    3. 레이블링: 스프레드가 평균으로 돌아오면 성공(1), 손절 라인을 건드리면 실패(-1), 시간 내에 돌아오지 않으면(0)으로 분류합니다.
  • 장점: 공적분(Cointegration) 관계가 깨지는 위험을 데이터셋 단계에서 반영할 수 있습니다.

3. Dynamic Threshold Breakout Labeling (2024)

핵심: 시장의 "변동성"에 따라 골대(임계값)의 크기를 실시간 조절

고정된 임계값(예: 2% 상승 시 매수)을 사용하면, 변동성이 낮은 장세에서는 신호가 전혀 안 잡히고, 변동성이 큰 장세에서는 신호가 너무 많이 잡히는 문제가 있습니다.

  • 작동 원리:
    • 최근 시장의 변동성 지표(주로 ATR 또는 표준편차)를 계산합니다.
    • 이 변동성 지표의 $N$배(예: $2 \times \text{ATR}$)를 동적 임계값으로 설정합니다.
    • 공식 예시:
    • $$Upper Barrier_t = Price_t \times (1 + k \times Volatility_t)$$
  • 2024년 트렌드: 최근 연구들은 단순 변동성뿐만 아니라, 시장의 국면(Regime)을 탐지하여 임계값을 비선형적으로 조절하는 방식까지 포함합니다.
  • 장점: 시장 상황(변동성 장세 vs 횡보 장세)에 관계없이 일관된 통계적 의미를 갖는 레이블을 생성합니다.

4. Genetic Algorithm-driven Triple Barrier

핵심: 최적의 익절/손절 폭과 보유 기간을 "진화 알고리즘"이 찾아냄

"익절 폭을 3%로 할까, 5%로 할까?"는 인간의 주관이 개입되기 쉽습니다. 이 기법은 유전 알고리즘(GA)을 사용하여 모델의 성과를 극대화하는 파라미터를 자동으로 탐색합니다.

  • 작동 원리:
    1. 유전자 설정: 트리플 배리어의 파라미터(익절 폭, 손절 폭, 보유 기간)를 유전자로 정의합니다.
    2. 진화 과정: 초기 무작위 값에서 시작하여, 모델의 성과(Sharpe Ratio, 정확도 등)가 좋은 파라미터 조합만 남깁니다(Selection).
    3. 교차 및 변이: 남은 파라미터들을 섞거나(Crossover) 미세하게 조정(Mutation)하여 최적해를 찾습니다.
  • 장점: 데이터에 내재된 최적의 수익/위험 비율을 찾아내어, 인간의 편향(Bias)을 제거한 객관적인 레이블링이 가능합니다.

요약 비교 테이블

기법 명칭 주요 기준 해결하고자 하는 문제 추천 전략
Continuous Trend 회귀 기울기 ($t$-value) 가격 노이즈 및 거짓 추세 추세 추종 (Trend Following)
P-Triple Barrier 스프레드 (Z-Score) 단일 자산 기준의 부적합성 페어 트레이딩, 차익거래
Dynamic Threshold 변동성 기반 (ATR 등) 고정 임계값의 경직성 변동성 돌파, 멀티 레짐 전략
GA-driven Barrier 유전 알고리즘 최적화 파라미터 설정의 주관성 모든 전략 (하이퍼파라미터 튜닝)

+ Recent posts