AI 적중 기록

MoneyBall Score AI가 얼마나 정확한지 솔직하게 공개합니다. 시즌 내 모든 검증 완료 예측 기준.

최종 업데이트: 2026년 7월 1일

검증 완료

143

경기

전체 적중률

54.5%

78/143 적중

Brier Score

0.243

낮을수록 좋음 (동전=0.25)

보정 오차

-0.4%p

잘 보정됨

최근 30일 AI 토론 사용률

2/120 AI 추론 활성 (2%)

나머지 118건은 정량 모델만 사용했습니다 (AI 토론·사후분석 미적용). 보통 API 한도·일시 장애 영향이며, 적중 기록은 AI 토론이 적용된 예측만 사용합니다.

6/15

7/1

AI 토론 활성정량 fallback예측 없음

최근 정량 fallback: 7. 8. 오후 04:18 KST

최근 예측 폼

최근 20경기 14적중 (70%)vs 전체 55%▼ 하락 중

●●●●●●●●×●××●●×●●●××

검증 완료된 최근 20경기 순서. 왼쪽이 이전, 오른쪽이 최신.

신뢰도 vs 실제 적중률

AI가 60% 확신으로 예측하면 실제로 60%를 맞히는가? 대각선에 가까울수록 잘 보정된 AI입니다. 원 크기 ∝ 예측 건수. 세로 막대 = 95% 신뢰구간.

30일 rolling 적중률 추세

최근 90일, window=30일

각 날짜의 직전 30일 평균 적중률입니다. 한두 경기 운에 흔들리지 않고 모델의 실제 추세를 보여줍니다. 50% 기준선보다 위에 있으면 모델이 동전 던지기보다 낫다는 뜻입니다.

예측 확률 구간별 실제 적중률

예측 = 실제 가까울수록 잘 보정

AI 가 50–60% 라고 한 경기는 실제 몇 %를 맞혔는지 비교합니다. 예측 구간 평균과 실제 적중률이 가까울수록 잘 보정된 모델입니다. 과신 (예측 > 실제 + 5%p) 구간은 주황색으로 표시됩니다.

cohort × 주차 비교

최근 4주

scoring_rule (모델 가중치 버전) × 주차 적중률 매트릭스 — 어느 가중치가 최근 주차에서 안정적인지 비교합니다. 요일 축 heatmap 의 시간 축 자매 view.

scoring_rule	5/18 주	5/25 주	6/1 주	6/29 주
전체	57% 4/7	78% 14/18	67% 10/15	N=1 소표본
v1.7-revert	—	N=2 소표본	—	—
v1.8	57% 4/7	75% 12/16	67% 10/15	N=1 소표본

색상 — brand-700 ≥70% / brand-500 ≥60% / brand-300 ≥50% / brand-100 <50% / 회색 N<3 소표본. 최근 4주 cohort 시계열 비교.

Brier 추세 (모델 진화)

낮을수록 정확. 0.25 = baseline

scoring_rule 별 주차 Brier — v1.5 → v1.6 → v1.7-revert → v1.8 진화 추세 시각화.

요일별 scoring_rule cohort

N<3 = 소표본 회색

scoring_rule × 요일 (KST) 적중률 매트릭스 — v1.6 anomaly cohort + Sunday cap (cycle 358) 효과 시각화.

scoring_rule	월	화	수	목	금	토	일
전체	N=0 소표본	56% 14/25	45% 10/22	63% 19/30	70% 16/23	57% 13/23	30% 6/20
v1.5	N=0 소표본	60% 3/5	N=0 소표본	100% 5/5	N=2 소표본	67% 2/3	N=1 소표본
v1.6	N=0 소표본	20% 1/5	33% 1/3	40% 4/10	50% 5/10	50% 5/10	13% 1/8
v1.7-revert	N=0 소표본	50% 5/10	60% 3/5	67% 4/6	100% 4/4	50% 2/4	20% 1/5
v1.8	N=0 소표본	100% 5/5	43% 6/14	67% 6/9	71% 5/7	67% 4/6	67% 4/6
v1.8-credit-fail	N=0 소표본	N=0 소표본	N=0 소표본	N=0 소표본	N=0 소표본	N=0 소표본	N=0 소표본

색상 — 녹색 ≥60% / 노랑 ≥50% / 빨강 <50% / 회색 N<3 소표본. v1.6 anomaly + Sunday cap (cycle 358) 효과 시각화.

주별 적중률 트렌드

주차	예측	적중	적중률
4/20 주	26	11	42.3%
4/27 주	25	9	36.0%
5/4 주	27	15	55.6%
5/11 주	13	6	46.2%
5/18 주	7	4	57.1%
5/25 주	18	14	77.8%
6/1 주	15	10	66.7%
6/29 주	1	0	0.0%

요일별 적중률

KST 기준. 요일에 따라 예측 난이도가 다를 수 있습니다. 막대 높이 ∝ 적중률. 일요일은 과적합 방지를 위해 AI 신뢰도 상한 45%를 적용합니다.

월—

—

화56%

14/25

수45%

10/22

목63%

19/30

금70%

16/23

토57%

13/23

일상한 45%30%

6/20

≥55%45~54%<45%50% 기준선

AI 확신도별 분석

AI가 스스로 매긴 확신도 구간별 실제 적중률. 확신이 높을수록 맞아야 잘 보정된 모델.

낮은 확신

~55%

53%

37/70

보통 확신

55~65%

56%

41/73

높은 확신

65%~

—

데이터 없음

AI 모델 버전별 성과

가중치 버전별 예측 정확도. 실패에서 배우고 개선하는 AI 진화 기록.

버전	기간	경기	적중률	변경 내용
v1.5	4/16~4/21	16	75%±21%	기준 모델
v1.6	4/22~5/3	46	37%	ELO·상대전적 실험 → 저조로 복원
v1.7	5/5~5/28	34	56%	v1.5 가중치 복원 + 일요일 상한 0.55 도입
v1.8진행 중	5/13~7/1	47	64%	ELO 10%↑ / head_to_head 3%↓ + 일요일 상한 0.45 조정
v1.8-credit-fail	—	0	수집 중	v1.8 안 LLM credit 소진 / agents_failed 분리 cohort (baseline 정합성 회복 — plan #14 C1c)
v2.1-B-shadow	—	0	수집 중	v2.1-B + shadow factor (park_weather / umpire_sz) — cohort evidence only
v2.0-shadow	—	0	수집 중	v1.8 + elo/bullpen_fip/recent_form 가중치 bump — cohort evidence only
tabpfn-shadow	—	0	수집 중	TabPFN inference (Python) — import-tabpfn-predictions.ts 로 박제

각 버전 표본이 작아 95% 신뢰구간이 넓습니다 (±14~21%p). 절대 수치보다 방향성 참고용입니다.

v1.8 세부 분석

v1.8 가중치 안에서 AI 토론이 실제 활성화된 예측과 API 한도로 정량 fallback 처리된 예측을 분리. AI 토론 신뢰성을 별도 측정합니다.

AI 토론 활성

47건 (100%)

model_version: v2.0-debate

64%

30/47 적중

정량 fallback

0건 (0%)

API 한도/장애로 LLM 비활성

—

데이터 없음

AI 토론 사용률 = 100% (47/47). 표본이 작은 구간은 신뢰구간이 넓습니다 (±15~25%p).

팀별 예측 성과

경기 관련 팀 기준. 홈/원정 구분 없이 집계. N < 3 팀은 샘플 부족 표시.

팀	예측	적중	적중률
KIA	31	19	61.3%
두산	28	17	60.7%
한화	27	16	59.3%
키움	32	18	56.3%
KT	27	15	55.6%
LG	28	15	53.6%
SSG	30	16	53.3%
롯데	28	14	50.0%
삼성	25	12	48.0%
NC	30	14	46.7%

팀별 예측 편향 분석

모델이 특정 팀의 승리를 실제 승률 대비 얼마나 과잉/과소 예측하는지 보여줍니다. 편향 갭이 큰 팀은 모델 진단 참고 지표입니다 (v1.8 유지 확정).

팀	예측 승률	실제 승률	편향 갭	적중률
SSG과잉예측	66.7%	37.8%	+28.9%p	53.3%
삼성과소예측	36.0%	61.0%	-25.0%p	48.0%
두산	67.9%	51.2%	+16.7%p	60.7%
키움	50.0%	33.7%	+16.3%p	56.3%
LG	46.4%	61.9%	-15.5%p	53.6%
롯데	32.1%	46.3%	-14.2%p	50.0%
KIA	41.9%	53.0%	-11.1%p	61.3%
한화	59.3%	49.4%	+9.9%p	59.3%
KT	48.1%	57.3%	-9.2%p	55.6%
NC	50.0%	48.8%	+1.2%p	46.7%

편향 갭 = 예측 승률 − 실제 승률. +는 과잉예측(더 자주 이긴다고 예측), −는 과소예측. n≥5 팀만 표시. 실제 승률 = 현재 시즌 KBO 순위 기준.

팀별 상대 강약 분석

각 팀 경기에서 AI가 어떤 상대팀을 만날 때 잘 맞추고 못 맞추는지 분석합니다. n=1 결과는 연하게 표시됩니다 (표본 1건). 홈/원정 적중률은 각 n을 함께 표시합니다.

SSG53%

홈40% (15)

원정67% (15)

vs 한화4/4

vs KIA2/2

vs 키움3/3

vs 두산3/4

vs KT2/5

vs NC1/4

vs 삼성1/4

vs 롯데0/3

vs LG0/1

KIA61%

홈61% (18)

원정62% (13)

vs 키움3/3

vs SSG2/2

vs 한화2/3

vs LG2/3

vs KT3/5

vs 롯데5/9

vs 두산2/4

vs NC0/2

LG54%

홈73% (15)

원정31% (13)

vs 키움1/1

vs 두산4/5

vs 롯데2/3

vs NC2/3

vs KIA2/3

vs 삼성1/2

vs 한화2/6

vs KT1/4

vs SSG0/1

두산61%

홈60% (15)

원정62% (13)

vs NC1/1

vs LG4/5

vs SSG3/4

vs 삼성2/3

vs 한화2/3

vs KIA2/4

vs 롯데2/4

vs 키움1/3

vs KT0/1

KT56%

홈57% (14)

원정54% (13)

vs 롯데2/2

vs 키움6/8

vs KIA3/5

vs NC1/2

vs SSG2/5

vs LG1/4

vs 두산0/1

삼성48%

홈38% (13)

원정58% (12)

vs 한화3/4

vs 두산2/3

vs NC4/6

vs LG1/2

vs SSG1/4

vs 키움1/6

롯데50%

홈42% (12)

원정56% (16)

vs KT2/2

vs 한화1/1

vs LG2/3

vs KIA5/9

vs 두산2/4

vs NC2/4

vs 키움0/2

vs SSG0/3

한화59%

홈58% (12)

원정60% (15)

vs SSG4/4

vs 롯데1/1

vs 삼성3/4

vs KIA2/3

vs 두산2/3

vs 키움1/2

vs LG2/6

vs NC1/4

NC47%

홈55% (11)

원정42% (19)

vs 두산1/1

vs LG2/3

vs 삼성4/6

vs KT1/2

vs 키움2/4

vs 롯데2/4

vs SSG1/4

vs 한화1/4

vs KIA0/2

키움56%

홈56% (18)

원정57% (14)

vs KIA3/3

vs LG1/1

vs SSG3/3

vs KT6/8

vs NC2/4

vs 한화1/2

vs 두산1/3

vs 삼성1/6

vs 롯데0/2

팩터별 적중률

10개 세이버메트릭스 팩터가 각각 경기 결과를 얼마나 잘 예측했는지 분석합니다. 팩터 값이 특정 팀을 유리하다고 판단했을 때, 그 팀이 실제로 이긴 비율입니다.

팩터 값이 0.45~0.55 중립 범위 밖인 경기만 집계. 기준선(61%) 초과 팩터 = 모델 기여 / 미달 = 잡음 가능성. 전체 n=143건 중 팩터별 비중립 게임 수 표시.

#	팩터	n (홈/원정)	적중률
1	선발 잠재력sp_xfip	67 (35/32)	64%
2	선발 투수력sp_fip	75 (38/37)	63%
3	불펜 안정성bullpen_fip	16 (7/9)	56%
4	상대전적head_to_head	135 (69/66)	55%
5	최근 폼recent_form	140 (62/78)	54%
6	수비력sfr	169 (88/81)	49%

∣ 기준선 = 전체 적중률 61% (v1.8 cohort n=143) ∣ 홈/원정 = 해당 팩터가 홈/원정팀 유리로 분류된 게임 수