Scoring · 점수 체계

Brier Score 란?

Naeil 은 시간 가중 Brier 점수로 평가합니다. 맞췄는지보다 얼마나 자신 있게 언제부터 그렇게 봤는지 를 봅니다.

핵심 한 줄

예측 확률과 실제 결과의 차이 제곱을, 그 예측을 유지한 기간으로 가중 평균 한 값.

Brier=Σ(po)2·ΔtΣΔt
정확도=(1Brier)×100
p= 내 예측 확률 (0–1)
o= 실제 결과 (1=YES, 0=NO)
Δt= 그 확률을 유지한 시간

세 가지 예시

똑같이 "결과를 맞췄다" 라고 말해도 점수는 크게 다릅니다.

자신 있게 맞춤

확신 강한 예측 + 실제 맞았음 → 큰 크레딧.

내 예측p = 0.90 (90%)
결과o = 1 (YES)
Brier(0.901)² = 0.01
정확도99
p
90%
o
100%
조심스럽게 맞춤

방향은 맞았지만 50/50 가까이 본 셈 → 크레딧 작음.

내 예측p = 0.55 (55%)
결과o = 1 (YES)
Brier(0.551)² = 0.20
정확도80
p
55%
o
100%
자신 있게 틀림

확신 강했는데 반대로 감 → 큰 벌점.

내 예측p = 0.90 (90%)
결과o = 0 (NO)
Brier(0.900)² = 0.81
정확도19
p
90%
o
0%

즉, "맞추기" "확신" 의 조합이 크레딧을 만듭니다. 확신 없을 땐 50% 근처로 찍는 게 안전 — 아무것도 모를 땐 아무것도 모른다고 말해야 벌점이 최소화됩니다.

왜 시간 가중?

예측은 점(point) 이 아니라 기간에 남아 있는 진술입니다. 같은 "최종 70%" 라도 며칠 전에 70%로 바꿨냐가 중요해요.

시간 가중 예시

초반 10일 30%, 후반 10일 80% 예측 → 결과 YES

정확도
73.5
구간별 가중 오차
구간 1 · 10일 · p=0.30(0.30 1)2 · 10=4.90
구간 2 · 10일 · p=0.80(0.80 1)2 · 10=0.40
Brier(4.90 + 0.40) / 20=0.265
정확도(1 0.265) × 100=73.5

후반에 정확한 업데이트를 해도, 초반에 틀린 기간이 길면 그만큼 벌점을 받습니다. 정보가 생기는 즉시 반영하는 게 이득이에요.

캘리브레이션: 자신감 정직도

"70% 라고 말한 예측들 중 실제로 70% 가 YES 로 났는가?" 를 본 지표입니다. 당신이 10번 "80% 확률" 이라고 했으면 장기적으로 8번 쯤 YES 로 나야 잘 보정된 예측자.

  • 70% → 약 7/10 YES 로 수렴한다 → 잘 보정됨
  • × 90% → 5/10 밖에 YES 가 안 난다 → 자신감 과잉
  • × 30% → 6/10 이 YES 로 난다 → 너무 소심함

프로필 페이지의 캘리브레이션 차트 는 당신의 예측 확률 구간별 실제 발생률을 점으로 찍어 줍니다. 대각선에 가까울수록 정직한 예측자.

왜 Brier?

Log Score · Quadratic · Spherical 여러 룰이 있지만 Brier 는:

해석이 직관적: 오차 제곱의 평균. "내 예측이 결과와 평균적으로 얼마나 멀었나".
극단값에 관대: 99% 찍고 틀려도 Log Score 처럼 폭발하지 않음. 자신 있게 말할 인센티브는 유지하면서 압박은 덜함.
Proper scoring rule: 진짜 믿는 확률을 그대로 말하는 게 최적 전략. 거짓말 하면 기대값 손해.

읽기만 해선 감이 안 옵니다. 실제로 예측 하나 남기고 내 캘리브레이션이 어떻게 움직이는지 지켜보는 게 가장 빠른 학습 경로.