기업이 빅데이터를 도입하는 목적은 현실에서 일어나는 많은 비즈니스 문제를 데이터 분석을 바탕으로 해결하고자 하는 데 있다. 즉 기업 문제와 관련된 데이터를 수집한 뒤 이를 분석해 데이터 속에 숨어 있는 인사이트를 찾아내 문제 해결에 활용하려는 것이다. 지난 호에서는 ‘데이터 분석으로 인사이트를 찾아내 의사결정에 활용한다’는 의미를 이해하기 쉽도록 영화배우 윌 스미스의 성공 스토리를 제시했다. 하지만 일부 독자가 윌 스미스의 경우는 데이터 수집이나 인사이트 추출을 위한 분석이 너무 간단한 예라고 지적하면서 좀 더 실감 나는, 다시 말해 데이터 수집이나 인사이트 추출에 많은 노력이 필요했던 사례를 알고 싶다는 의견을 보내왔다. 이번 호에서는 치밀한 데이터 수집과 분석으로 성공한 사례를 소개한다.
지금으로부터 약 160년 전인 1856년쯤, 오스트리아의 한적한 시골 수도원에서 한 수사가 완두콩을 재배하기 시작했다. 8년 동안이나 225회에 이르는 복잡한 교배실험으로 1만2980개의 잡종을 얻은 그는 엄청나게 복잡한 데이터를 분석하는 작업에 몰두했다. 끈질긴 분석 끝에 마침내 그는 유전형질의 숨겨진 패턴을 찾아냈다. 아쉽게도 당시 그의 완두콩 실험은 아무런 주목도 받지 못했고, 수십 년이 지난 후 비로소 19세기의 가장 위대한 과학적 성과 가운데 하나로 인정받았다. 그가 바로 유전학의 아버지라 불리는 멘델(Gregor Johann Mendel)이다.
빅데이터 수집해 유전학 집대성
가난한 집안에서 태어난 멘델은 더 나은 교육을 받기 위해 수도원에 들어갔다. 나중에 빈의 한 대학에 진학한 그는 특히 식물학에 매료됐다. 당시 농부들은 식물을 선택적으로 교배해 형질을 개량하는 방법을 수백 년간 활용하고 있었다. 하지만 식물을 잘 교배하면 왜 그런 개량이 가능한지 아무도 설명하지 못했다. 멘델은 식물의 자손이 부모세대의 형질을 그대로 지니지만 어떤 경우에는 부모세대에게 없는 형질이 나타난다는 점에 주목했다. 그는 여러 세대에 걸쳐 색깔, 길이, 모양 등의 형질이 전달되는 방식에 어떤 규칙성이 있을 것이라고 생각했다. 세대 간에 형질이 전해지는 방식을 알아내려면 장기간에 걸친 식물재배가 필요했고, 멘델은 수도원에서 이를 직접 하기로 결심했다.
그 무렵 유전(비록 이 용어는 아직 등장하기 전이었지만)을 설명하는 여러 가설이 있었으며 다윈(Charles Darwin)의 자연선택이론도 막 세상에 알려지고 있었다. 일반적으로 받아들여지는 가설은 세대 간에 걸쳐 유전되는 형질이 서로 섞인다는 것이었고, 다윈도 부모 형질이 자손에게 반씩 섞인다고 믿었다. 라마르크(Jean-Baptiste Lamarck)의 이론, 즉 사용하지 않는 형질은 잃게 되고, 사용하는 형질은 발달되며, 획득된 형질은 유전된다는 이론 역시 여전히 사실로 받아들여지고 있었다.
하지만 멘델은 철저하고 꼼꼼하게 계획된 실험을 통해 유전의 규칙적인 패턴을 찾아내려 했다. 비슷한 시기 이런 실험을 수행한 학자가 여러 명 있었지만 수많은 데이터 속에서 형질의 유전에 관한 일반적인 패턴을 발견하지는 못했다. 멘델은 수집한 데이터를 통해서만 후손에게 형질이 전해지는 일관적인 법칙을 탐구할 수 있다는 것을 알았다.
멘델은 교배실험 대상으로 완두콩을 선택했다. 완두콩은 싸고 재배하기 쉬우며 한 세대가 짧고 암수한몸이라 자화수분을 통제할 수 있다는 장점을 지녔다. 완두콩의 수백 가지 형질 가운데 멘델은 대립형질이 뚜렷해 중간적인 형질이 나오기 어려운 아래의 7개 형질을 선택했다. 다음 세대에서 중간적인 형질이 나타나지 않는 조건은 매우 중요했다. 왜냐하면 당시 일반적으로 받아들여지던 이론은 다음 세대에서는 형질이 서로 섞인다는 것이었기 때문이다.
●꽃의 위치(줄기, 줄기 끝)
●꽃의 색깔(주황, 흰색)
●줄기의 길이(짧거나 김)
●씨의 모양(둥글거나 주름)
●씨의 색깔(황색, 녹색)
●콩깍지 모양(부풀거나 쭈글쭈글)
●콩깍지 색깔(황색, 녹색)
완두콩 잡종에서 얻어낸 3가지 법칙
1856년부터 1863년 사이 멘델은 인내심을 갖고 꼼꼼하게 실험을 진행했다. 서로 다른 완두콩을 이종교배하기 위해 한 종류의 완두콩에 조심스럽게 다가가 수술에 있는 꽃가루를 맨손으로 제거한 다음, 다른 종류의 완두콩 꽃가루와 수분시켰다. 그런 다음 새로운 완두콩 세대에서 교배된 결과로 나타난 형질을 꼼꼼히 기록했다. 그는
8년에 걸쳐 225회에 이르는 완두콩 교배실험으로 7개의 형질이 여러 세대에 걸쳐 교배된 1만2980개 잡종을 얻었다. 멘델은 그 데이터 속에서 각 형질이 전달되는 어떤 규칙성을 찾기 위해 그것을 분석하는 엄청난 작업을 진행했다. 멘델이 공부를 가장 많이 한 분야도 수학이며, 그런 배경을 바탕으로 그는 완두콩 실험 결과에 수학적 정확성을 적용해 일관적인 패턴을 찾아내는 데 주력했다. 엄청난 데이터 속에서 멘델이 기적적으로 찾아낸 규칙성은 흔히 ‘멘델의 법칙’이라 부르는 다음의 3가지 법칙이다.
●우열의 법칙 : 대립형질 사이에는 우성·열성의 관계가 있으며 이질적인 조합에서는 우성 형질만 발현된다.
●분리의 법칙 : 우성이 발현된 잡종을 다시 교배하면 형질의 분리가 일어나 3 대 1의 비율로 열성이 나타난다.
●독립의 법칙 : 형질들끼리는 서로에게 영향을 미치지 않고 독립적으로 발현한다.
멘델은 실험 결과를 두 부분으로 나눠 1866년 무명의 지방학회지인 ‘브륀자연과학연구회보’에 ‘식물 잡종에 관한 실험들(Experiments in Plant Hybridization)’이라는 제목으로 논문을 발표했다. 그는 논문의 별쇄본 40부를 주문해 유럽 과학계의 주요 인사들에게 보냈지만 아무런 주목을 받지 못했다. 심지어 멘델이 다윈에게 보낸 논문 봉투는 다윈이 죽은 후 그의 자료를 정리할 때 발견됐는데, 개봉조차 안 한 상태였다고 한다. 멘델의 논문은 그로부터 34년 후에야 주목받는다. 멘델과 거의 같은 발상으로 유전의 패턴을 규명하는 실험을 계획했던 유럽 학자들이 우연히 무명의 지방학회지에 실렸던 멘델의 논문을 알게 됐고, 유전의 법칙성을 이미 밝힌 멘델의 역사적인 업적을 확인한 것이다. 멘델의 빅데이터 수집과 분석을 통한 연구 결과는 오늘날 빅데이터를 활용하고자 하는 기업 혹은 개인 등 모든 이에게 시사하는 바가 크다.
지금으로부터 약 160년 전인 1856년쯤, 오스트리아의 한적한 시골 수도원에서 한 수사가 완두콩을 재배하기 시작했다. 8년 동안이나 225회에 이르는 복잡한 교배실험으로 1만2980개의 잡종을 얻은 그는 엄청나게 복잡한 데이터를 분석하는 작업에 몰두했다. 끈질긴 분석 끝에 마침내 그는 유전형질의 숨겨진 패턴을 찾아냈다. 아쉽게도 당시 그의 완두콩 실험은 아무런 주목도 받지 못했고, 수십 년이 지난 후 비로소 19세기의 가장 위대한 과학적 성과 가운데 하나로 인정받았다. 그가 바로 유전학의 아버지라 불리는 멘델(Gregor Johann Mendel)이다.
빅데이터 수집해 유전학 집대성
가난한 집안에서 태어난 멘델은 더 나은 교육을 받기 위해 수도원에 들어갔다. 나중에 빈의 한 대학에 진학한 그는 특히 식물학에 매료됐다. 당시 농부들은 식물을 선택적으로 교배해 형질을 개량하는 방법을 수백 년간 활용하고 있었다. 하지만 식물을 잘 교배하면 왜 그런 개량이 가능한지 아무도 설명하지 못했다. 멘델은 식물의 자손이 부모세대의 형질을 그대로 지니지만 어떤 경우에는 부모세대에게 없는 형질이 나타난다는 점에 주목했다. 그는 여러 세대에 걸쳐 색깔, 길이, 모양 등의 형질이 전달되는 방식에 어떤 규칙성이 있을 것이라고 생각했다. 세대 간에 형질이 전해지는 방식을 알아내려면 장기간에 걸친 식물재배가 필요했고, 멘델은 수도원에서 이를 직접 하기로 결심했다.
그 무렵 유전(비록 이 용어는 아직 등장하기 전이었지만)을 설명하는 여러 가설이 있었으며 다윈(Charles Darwin)의 자연선택이론도 막 세상에 알려지고 있었다. 일반적으로 받아들여지는 가설은 세대 간에 걸쳐 유전되는 형질이 서로 섞인다는 것이었고, 다윈도 부모 형질이 자손에게 반씩 섞인다고 믿었다. 라마르크(Jean-Baptiste Lamarck)의 이론, 즉 사용하지 않는 형질은 잃게 되고, 사용하는 형질은 발달되며, 획득된 형질은 유전된다는 이론 역시 여전히 사실로 받아들여지고 있었다.
하지만 멘델은 철저하고 꼼꼼하게 계획된 실험을 통해 유전의 규칙적인 패턴을 찾아내려 했다. 비슷한 시기 이런 실험을 수행한 학자가 여러 명 있었지만 수많은 데이터 속에서 형질의 유전에 관한 일반적인 패턴을 발견하지는 못했다. 멘델은 수집한 데이터를 통해서만 후손에게 형질이 전해지는 일관적인 법칙을 탐구할 수 있다는 것을 알았다.
멘델은 교배실험 대상으로 완두콩을 선택했다. 완두콩은 싸고 재배하기 쉬우며 한 세대가 짧고 암수한몸이라 자화수분을 통제할 수 있다는 장점을 지녔다. 완두콩의 수백 가지 형질 가운데 멘델은 대립형질이 뚜렷해 중간적인 형질이 나오기 어려운 아래의 7개 형질을 선택했다. 다음 세대에서 중간적인 형질이 나타나지 않는 조건은 매우 중요했다. 왜냐하면 당시 일반적으로 받아들여지던 이론은 다음 세대에서는 형질이 서로 섞인다는 것이었기 때문이다.
●꽃의 위치(줄기, 줄기 끝)
●꽃의 색깔(주황, 흰색)
●줄기의 길이(짧거나 김)
●씨의 모양(둥글거나 주름)
●씨의 색깔(황색, 녹색)
●콩깍지 모양(부풀거나 쭈글쭈글)
●콩깍지 색깔(황색, 녹색)
완두콩 잡종에서 얻어낸 3가지 법칙
1856년부터 1863년 사이 멘델은 인내심을 갖고 꼼꼼하게 실험을 진행했다. 서로 다른 완두콩을 이종교배하기 위해 한 종류의 완두콩에 조심스럽게 다가가 수술에 있는 꽃가루를 맨손으로 제거한 다음, 다른 종류의 완두콩 꽃가루와 수분시켰다. 그런 다음 새로운 완두콩 세대에서 교배된 결과로 나타난 형질을 꼼꼼히 기록했다. 그는
8년에 걸쳐 225회에 이르는 완두콩 교배실험으로 7개의 형질이 여러 세대에 걸쳐 교배된 1만2980개 잡종을 얻었다. 멘델은 그 데이터 속에서 각 형질이 전달되는 어떤 규칙성을 찾기 위해 그것을 분석하는 엄청난 작업을 진행했다. 멘델이 공부를 가장 많이 한 분야도 수학이며, 그런 배경을 바탕으로 그는 완두콩 실험 결과에 수학적 정확성을 적용해 일관적인 패턴을 찾아내는 데 주력했다. 엄청난 데이터 속에서 멘델이 기적적으로 찾아낸 규칙성은 흔히 ‘멘델의 법칙’이라 부르는 다음의 3가지 법칙이다.
●우열의 법칙 : 대립형질 사이에는 우성·열성의 관계가 있으며 이질적인 조합에서는 우성 형질만 발현된다.
●분리의 법칙 : 우성이 발현된 잡종을 다시 교배하면 형질의 분리가 일어나 3 대 1의 비율로 열성이 나타난다.
●독립의 법칙 : 형질들끼리는 서로에게 영향을 미치지 않고 독립적으로 발현한다.
멘델은 실험 결과를 두 부분으로 나눠 1866년 무명의 지방학회지인 ‘브륀자연과학연구회보’에 ‘식물 잡종에 관한 실험들(Experiments in Plant Hybridization)’이라는 제목으로 논문을 발표했다. 그는 논문의 별쇄본 40부를 주문해 유럽 과학계의 주요 인사들에게 보냈지만 아무런 주목을 받지 못했다. 심지어 멘델이 다윈에게 보낸 논문 봉투는 다윈이 죽은 후 그의 자료를 정리할 때 발견됐는데, 개봉조차 안 한 상태였다고 한다. 멘델의 논문은 그로부터 34년 후에야 주목받는다. 멘델과 거의 같은 발상으로 유전의 패턴을 규명하는 실험을 계획했던 유럽 학자들이 우연히 무명의 지방학회지에 실렸던 멘델의 논문을 알게 됐고, 유전의 법칙성을 이미 밝힌 멘델의 역사적인 업적을 확인한 것이다. 멘델의 빅데이터 수집과 분석을 통한 연구 결과는 오늘날 빅데이터를 활용하고자 하는 기업 혹은 개인 등 모든 이에게 시사하는 바가 크다.