본문 바로가기

주간동아 로고

  • Magazine dongA
통합검색 전체메뉴열기

베이스볼 비키니

‘스마트’ 야구가 우승 비결

KBO의 데이터 야구, 아직 초기 단계에 불과

  • 황규인 동아일보 기자 kini@donga.com

‘스마트’ 야구가 우승 비결

[GettyImages]

[GettyImages]

0358009999. 

이 열 자리 숫자는 무슨 뜻일까요. 빼기 부호(-)를 좀 넣으면 다르게 보일지 모릅니다. 

03-5800-9999. 

갑자기 전화번호처럼 보입니다. 그래도 이상합니다. 한국에는 03이라는 지역번호가 없으니까요. 035-800-9999라고 써도 마찬가지. 한국에는 035라는 지역번호도 없습니다. 

일본 전화번호 체계를 아는 분이라면 ‘저건 도쿄(東京)다’라고 생각했을지도 모릅니다. 맞습니다. 03은 도쿄(23구) 지역번호고, 5800-9999는 도쿄돔 전화번호입니다. 이 전화번호 사례는 장성환 ‘디자인스튜디오203’ 대표의 강의 내용을 응용한 겁니다. 장 대표는 데이터와 정보 차이를 설명할 때 미국 전화번호를 씁니다. 이렇게 데이터가 머릿속에서 가공을 거쳐 정보로 바뀌면 세상이 좀 더 분명하게 보이곤 합니다. 다음 숫자는 뭘까요. 



0334048999. 

이번에는 빼기 부호가 없는데도 많은 분이 도쿄 전화번호라고 생각했을 겁니다. 네, 03-3404-8999는 메이지진구(明治神宮)야구장 전화번호입니다. 

퀴즈 하나만 더 풀어보겠습니다. 다음 숫자는 뭘까요. 

0332631159. 

이번에도 도쿄 야구장 전화번호라고 생각하지 않았나요. 답이 계속 똑같으면 재미없는 법. 이번에는 033-263-1159처럼 나눠야 합니다. 한국 전화번호처럼 보이나요. 네, 춘천의암야구장 전화번호입니다. 

네, 여러분은 지금 전화번호부, 아니 고품격 야구칼럼 ‘베이스볼 비키니’를 읽고 계십니다.


데이터→정보→지식→지혜

야구 기사에 이렇게 전화번호 이야기를 길게 쓴 건 ‘데이터 야구’라는 표현 때문입니다. 데이터 야구가 얼마나 유행인지는 새삼 강조할 필요가 없을 정도. 그만큼 오해도 쌓여갑니다. 특히 프로야구 한국시리즈에서 데이터 야구를 표방한 키움 히어로즈가 두산 베어스에 4전 전패로 패하자 “데이터 야구로는 감(感) 야구를 이기고 우승할 수 없다”는 목소리까지 들립니다. 

정말 그럴까요. 일단 용어부터 바로잡을 필요가 있습니다. 데이터 야구에서 제일 중요한 건 데이터가 아닙니다. 0358009999라는 ‘데이터’는 그냥 숫자 나열일 뿐입니다. 마이크로소프트(MS) 엑셀에 이 숫자를 입력하면 3억5800만9999라고 받아들일 뿐입니다. 

이 데이터를 03-5800-9999라고 가공하면 ‘정보’가 됩니다. 이제 이 데이터는 3억5800만9999가 아니라 전화번호 형태가 되죠. 분석(分析)이라는 한자를 있는 그대로 풀이하면 나누고 가른다는 뜻. 이렇게 필요한 형태로 자료를 나누고 가르고 또 이어붙일 줄 알아야 데이터를 정보로 만들 수 있습니다. 

다음 단계는 의미 있는 정보를 찾아내는 겁니다. 만약 일본에서 전화기를 들고 03으로 시작하는 번호를 하나하나 누르면 전부 도쿄지역에서 받을 겁니다. 그러면 우리는 ‘03’으로 시작하는 전화번호는 도쿄로 연결된다는 규칙, 그러니까 ‘지식’을 얻을 수 있습니다. 

단, 한국에서는 03으로 시작하는 전화번호를 누르면 강원, 경기, 인천 가운데 한 지역으로 연결되거나 없는 번호라고 나옵니다. 이를 통해 우리는 조건이 달라졌을 때 규칙을 어떻게 수정해야 하는지를 알아볼 수 있습니다. 정보학에서는 이렇게 상황이나 맥락에 따라 지식을 다르게 적용할 수 있는 능력을 ‘지혜’라고 부릅니다. 

이렇게 데이터는 지식(또는 지혜)을 향해 가는 첫걸음일 뿐입니다. 야구에서도 마찬가지입니다. 실제로 우리는 데이터를 통해 야구에 대해 미처 몰랐던 정보를 많이 알게 됐고, 그 덕분에 야구 지식도 늘었습니다. 그 지식을 실제 경기에 활용하는 지혜로운 지도자도 늘어나는 추세입니다. 그러니 밋밋하게 데이터 야구라고 표현할 게 아니라 최소한 ‘스마트한 야구’라고 불러야 이 변화를 제대로 설명할 수 있습니다. 

‘그래서 두산은 스마트한 야구를 하지 않은 걸까.’ 이 질문에 ‘아니요’라고 답하는 야구팬은 없을 겁니다. 또 실제로 두산 역시 열심히 데이터를 분석하는 팀입니다. 한국시리즈 내내 상대의 공격 흐름을 끊어놓는 호수비 퍼레이드가 설마 하늘에서 떨어졌을까요. 그저 장정석 전 감독이 데이터 이야기를 즐겨 하는 편이라 키움 쪽이 데이터 야구에 더 가까워 보였을 뿐입니다.


두산의 우승 비결

최근 5년 동안 한국시리즈 
챔피언을 3번 거머쥔 두산 베어스.

최근 5년 동안 한국시리즈 챔피언을 3번 거머쥔 두산 베어스.

그렇다 해도, 두산 데이터 분석 담당은 서운하지 않을까요. 다른 구단은 R&D(연구개발) 담당을 새로 꾸렸다는 둥, 익스텐션(extension·투구판과 투수가 공을 놓는 지점 간 거리)을 보고 외국인 투수를 데려왔다는 둥 어떻게든 ‘우리가 데이터에 이렇게 많이 신경 쓰고 있다’고 열심히 홍보하고 또 홍보하는데 말이죠. 이에 대해 두산 관계자는 “우승했으면 그걸로 충분하다”고 답했습니다. 

사실 프로야구 팀이 제일 알고 싶어 하는 지식을 네 글자로 줄이면 ‘우승 비법’일 겁니다. 두산은 최근 5년 동안 3번 한국시리즈 챔피언 자리에 올랐습니다. 그렇다고 두산이 선수단 몸값을 펑펑 쓰는 팀도 아닙니다. 이런 팀을 두고 데이터 분석이 약하다고 평가하는 분이 있다면 데이터 분석을 하는 이유를 한 번 더 생각해보는 게 좋지 않을까요. 

많은 야구팬이 데이터 야구를 세상에 처음 알린 책으로 ‘머니볼(Moneyball)’을 꼽을 겁니다. 혹시 이 책 부제목을 아시나요. 정답은 ‘불공정한 게임을 승리로 이끄는 과학(The Art of Winning an Unfair Game)’입니다. 여기서 ‘불공정하다’는 표현은 예산이 부족해 선수 영입 경쟁에서 밀릴 수밖에 없는 오클랜드 어슬레틱스의 사정을 설명한 겁니다. 

자유계약선수(FA) 자격을 얻은 주전 포수 양의지(32)를 NC 다이노스로 보내야 했던 두산 역시 ‘FA시장은 불공정한 게임’이라고 생각했을지 모릅니다. 그래도 결과는 지난해(한국시리즈 준우승)보다 올해 더 좋았습니다. ‘주어진 여건’에서 최선을 다한 결과입니다.


데이터 분석가에 대한 인식 수준

[GettyImages]

[GettyImages]

잘 뜯어보면 데이터라는 낱말에 이런 뜻도 담겨 있습니다. ‘성문종합영어’를 열심히 공부한 독자라면 ‘data’가 원래 ‘datum’의 복수형(plural)이라는 사실을 기억하고 있을 터. 라틴어 ‘datum’은 ‘주어진 것(a given)’이라는 뜻입니다. 

그러니까 데이터 야구는 주어진 것을 토대로 한 걸음이라도 더 나아가는 방법을 찾는 야구라고 할 수 있습니다. NC에서 데이터 분석을 담당했던 송민구 씨는 본인의 페이스북에 “데이터를 좀 더 써보고자 하는 것은 감 야구를 밀어내고 뭘 어쩌자는 움직임이 아니라 1승이라도 더 해보고자 하는 눈물겨운 노력”이라고 썼습니다. 

올해 프로야구 10개 팀이 선수 몸값으로 쓴 돈을 다 합치면 1107억 원이 넘습니다. 무승부를 빼고 프로야구에서 총 713승이 나왔으니까 1승에 1억5000만 원 넘는 돈을 투자한 셈입니다. 반면 KIA 타이거즈의 채용 광고를 보면 데이터 분석가 연봉은 3840만 원부터 시작합니다. 선수 연봉의 4분의 1을 가지고 1승을 더 거둘 수 있다면 해볼 만한 투자인 셈입니다. 

물론 3840만 원은 연봉의 ‘시작점’입니다. 그래도 각 구단에서 아직 데이터 분석가를 높이 쳐주지 않는다는 사실 정도는 짐작할 수 있습니다. 메이저리그는 이미 미국항공우주국(NASA) 연구원 출신을 영입할 정도로 데이터 분석가를 우대하는 분위기입니다. 한국 역시 적어도 그 정도 수준은 돼야 “우리도 데이터 야구 좀 한다”고 말할 수 있는 시대가 열리지 않을까요.






주간동아 2019.11.15 1214호 (p66~68)

황규인 동아일보 기자 kini@donga.com
다른호 더보기 목록 닫기
1218

제 1218호

2019.12.13

“긴 터널 빠져나오자 우울의 고장”

목차보기구독신청이번 호 구입하기

지면보기 서비스는 유료 서비스입니다.