[제4편] 최적의 타점을 찾아서 — 강화학습(DQN)이 결정하는 '사격의 순간'

종목 선정(What to buy)이 전략의 뼈대라면, 매매 타이밍(When to buy/sell)은 전략의 근육입니다. 아무리 좋은 종목도 상투에서 잡으면 고통이 따르고, 아무리 나쁜 종목도 바닥에서 잡으면 수익을 줍니다.
저는 아르고스제미니(AJ) 시스템에 강화학습(Reinforcement Learning) 엔진을 탑재하여, 데이터 스스로가 최적의 매수·매도 타점을 학습하도록 설계했습니다. 특히 외부 라이브러리(PyTorch, TensorFlow)에 의존하지 않고 numpy만으로 직접 구현한 **Deep Q-Network(DQN)**를 통해 시스템의 경량화와 로직의 투명성을 동시에 확보했습니다.
🧠 스스로 진화하는 트레이더, DQN(Deep Q-Network)
강화학습은 시행착오를 통해 보상을 극대화하는 방향으로 행동을 교정해 나가는 학습 방식입니다. [아제]의 DQN 에이전트는 지난 2년간의 대한민국 주식 시장이라는 가상 환경(Environment)에서 수천 번의 매매를 반복하며 다음의 요소를 학습했습니다.
- 상태(State) - 시장의 목격: 에이전트는 단순히 가격만 보지 않습니다. RSI(과매수/과매도), MACD(추세 전환), 볼린저 밴드(변동성), 전일 대비 거래량 비율 등 핵심 기술적 지표들을 입력값으로 받아 현재 시장이 어떤 '국면'에 있는지 판단합니다.
- 행동(Action) - 결정의 순간: 에이전트에게 주어진 선택지는 세 가지입니다. 적극적인 진입(BUY), 전량 회수(SELL), 혹은 에너지가 응집될 때까지 기다리는 인내(HOLD).
- 보상(Reward) - 결과의 책임: 매수 후 수익이 발생하면 플러스(+) 보상을, 손실이 발생하면 마이너스(-) 보상을 부여합니다. DQN은 시간이 흐를수록 누적 보상을 최대화하기 위해, 즉 '가장 높은 수익률을 줄 수 있는 지점'에서만 사격하도록 진화합니다.
🔄 매주 월요일 02:00, 지능의 재탄생 (Heartbeat Retraining)
주식 시장은 살아있는 생물과 같아서 과거의 공식이 내일도 맞는다는 보장이 없습니다. 이를 극복하기 위해 [아제]는 매주 월요일 새벽 2시, 모든 에이전트를 재학습(Retraining) 시킵니다.
pykrx를 통해 최신 일봉 데이터를 수집하고, 핵심 주도주 10종목에 대해 개별 에이전트가 새롭게 가중치를 갱신합니다. 이를 통해 시스템은 '최근의 시장 트렌드'를 가장 빠르게 반영한 상태로 월요일 아침 개장을 맞이하게 됩니다.
⚖️ 앙상블 투표: 규칙과 지능의 결합 (The Strategic Council)
강화학습이 강력하지만, 때로는 과최적화(Overfitting)의 위험이 있습니다. 그래서 저는 **'3인 앙상블 시스템'**을 통해 의사결정의 안정성을 높였습니다.
- V3a (Rule-based): 전통적인 퀀트 수식과 기술적 지표 기반의 엄격한 규칙.
- GBT (Probabilistic): 통계적 확률 모델이 산출한 상승 가능성.
- RL (DQN-based): 강화학습 에이전트가 학습한 실전 매매 경험.
이 세 가지 엔진이 모두 BUY를 외치면 확신도 점수에 +15점의 가산점을 부여합니다. 반대로 강화학습 에이전트가 위험 신호를 보내면 전체 확신도를 깎아 내려 보수적으로 대응합니다. 이는 마치 베테랑 트레이더의 '경험'을 알고리즘화하여 시스템에 이식한 것과 같습니다.
💡 기술적 자부심: Pure Numpy Implementation
프레임워크 없이 numpy만으로 신경망의 순전파(Forward)와 역전파(Backprop)를 직접 구현한 이유는 명확합니다. 시스템 내부의 모든 수치 변화를 제가 완벽히 통제하기 위함입니다. 블랙박스처럼 돌아가는 AI가 아니라, **"왜 여기서 사고팔았는가?"**에 대해 수학적으로 명확한 답변을 내놓을 수 있는 시스템, 그것이 바로 [아제]가 추구하는 **'설명 가능한 퀀트 AI'**의 지향점입니다.
📈 결론: 타이밍은 배우는 것이다
[아제]의 강화학습 엔진은 오늘도 완벽한 사격 타이밍을 위해 수없이 많은 가상의 차트를 복기하고 있습니다. 인간의 감정이 개입할 틈이 없는 기계적인 정밀함, 그리고 매주 새롭게 태어나는 유연함이 결합될 때 우리의 계좌는 비로소 시장의 거친 파도를 이겨낼 수 있을 것입니다.
[다음 편 예고] 5편: Risk Management — 공포에 사고 탐욕에 판다, AI 위기지표 시스템의 비밀
2026.02.11 - [IT와 과학/주식자동매매기술] - [제5편] 공포를 숫자로 읽다 — AI 위기지표 시스템과 역발상 전략
[제5편] 공포를 숫자로 읽다 — AI 위기지표 시스템과 역발상 전략
[제5편] 공포를 숫자로 읽다 — AI 위기지표 시스템과 역발상 전략 "남들이 탐욕을 부릴 때 두려워하고, 남들이 두려워할 때 탐욕을 부려라."투자자라면 누구나 아는 워런 버핏의 격언이지만, 이
iotnbigdata.tistory.com
'IT와 과학 > 주식자동매매기술' 카테고리의 다른 글
| [제6편] 24시간 깨어있는 디지털 비서 — 사령부 인텔리전스 리포팅 시스템 (0) | 2026.02.11 |
|---|---|
| [제5편] 공포를 숫자로 읽다 — AI 위기지표 시스템과 역발상 전략 (0) | 2026.02.11 |
| [제3편] Alpha Discovery — 지능형 엔진 '아제(AJ)'가 '내일의 셀트리온'을 발굴하는 법 (0) | 2026.02.11 |
| [제2편] 3AI 합의 시스템 — 세 명의 AI 애널리스트, 한 종목을 해부하다 (0) | 2026.02.11 |
| [제1편] AI가 주식을 고른다면 — 데이터 사이언스와 투자의 결합 (0) | 2026.02.11 |