[shutterstock]
데이터 과학자가 하는 연구는 이런 식이다. 미국 청춘 남녀 사이에 유행하는 ‘스피드 데이트’가 있다. 참여하는 남녀는 처음 본 상대와 짧은 시간 대화를 나누고 다른 상대로 갈아탄다. 서로 마음에 든 남녀가 데이트 약속을 잡으면 성공! 데이터 과학자는 이렇게 스피드 데이트에 참여한 남녀 수백 명이 주고받은 대화(데이터)를 모조리 수집, 분석했다.
그랬더니 어떤 패턴이 나타났다. 먼저 남성은 여성이 마음에 들면 목소리 높낮이를 일정하게 조절한다. 상대 여성에게 진중한 인상을 주려는 것이다. 실제로 단조로운 목소리가 여성에게는 남성적으로 들린다는 연구 결과가 있다. 여성 역시 목소리 높낮이에 변화를 줘 부드럽게 말하려 노력한다.
상대가 좋다, 혹은 싫다는 신호도 있을까. 있다. 상대 남성이 마음에 들지 않을 때 여성이 많이 쓰는 표현은 “아마” “별로” “그럴 거예요” 등 얼버무리는 말이다. 반면, 여성이 좀 더 적극적으로 자기 이야기를 한다면 상대에게 호감이 있다는 신호다. 그러니까, 남성이 들을 수 있는 가장 반가운 상대 여성의 호감 신호는 “나(I)”다.
당연히 여성은 자신의 이야기에 귀 기울이고, 관심에 더해 지지와 공감을 표시하는 남성에게 더 큰 호감을 느낀다. 그렇다면 남성은 어떨까. 데이터 과학자가 발견한 불편한 진실은 이렇다. 남성이 (짧은 시간의 만남임을 염두에 두더라도) 관심을 가진 거의 유일한 요소는 여성의 외모였다. 갑자기 내 낯이 뜨거워진다.
아동 학대는 정말로 줄었을까
이뿐 아니다. 데이터 과학은 겉으로 드러난 통계 자료가 말하지 못한 삶의 진실에 다가갈 수 있도록 돕는다. 2007년 말부터 금융위기가 전 세계를 덮쳤다. 은행에 담보를 잡히고 구매한 부동산이 폭락하고, 주식시장이 얼어붙고, 여기저기 실직자가 늘어났다. 당시 많은 전문가는 이런 경기침체가 아동에게 미칠 영향을 걱정했다.직장을 잃고, 돈에 쪼들리는 부모는 본의 아니게 그 스트레스를 어린아이에게 풀 개연성이 있다. 아동 학대가 늘어날 가능성이 어느 때보다 커 보였다. 하지만 미국 공식 데이터는 달랐다. 우려했던 아동 학대 증가 조짐은 나타나지 않았다. 심지어 아동 학대 사건이 줄어드는 것처럼 보였다.
‘모두 거짓말을 한다’(더퀘스트) 같은 자극적인 제목의 책을 펴낸 구글의 데이터 과학자 세스 스티븐슨 다비도위츠는 이런 공식 통계가 믿기지 않았다. 그는 구글 데이터를 찾았다. 구글 데이터는 구글 검색창에 수많은 사람이 남긴 검색 흔적을 데이터로 가공한 것이다. 결과는 어땠을까. 다비도위츠에 따르면 아이들은 구글에서 비극적이고 가슴 아픈 검색을 했다.
‘엄마가 나를 때려요!’ ‘아빠가 나를 때려요.’ 이런 검색은 2007년 말 시작된 경기침체 기간 크게 늘었다. 다비도위츠의 분석은 이렇다. 아동 학대가 줄어든 것이 아니라 아동 학대 ‘신고’만 감소했다. 경기침체로 아동 학대를 담당하던 경찰, 교사, 공무원이 일자리를 잃으면서 아동 학대 신고 자체가 어려워졌기 때문이다.
구글의 검색 흔적을 활용한 데이터 과학은 남자아이와 여자아이에게 성 역할의 고정관념이 어떤 식으로 주입되는지도 말해준다. 상당수 부모는 한 번쯤 자신의 아이가 특별한 재능을 가진 ‘천재’가 아닌지 의심한다. 대부분 아이가 자라면서 착각이라는 게 확인되지만 말이다. 그런데 남자아이와 여자아이에 대한 부모의 반응이 다르다.
부모는 구글 검색창에 ‘내 딸이 재능 있나요?’보다 ‘내 아들이 재능 있나요?’라는 질문을 2.5배나 많이 한다. ‘내 아들이 천재인가요?’ 같은 질문은 ‘내 딸이 천재인가요?’보다 훨씬 더 많다. 반면 ‘내 딸이 뚱뚱한가요?’를 ‘내 아들이 뚱뚱한가요?’보다 2배 가까이 많이 묻는다. ‘내 딸이 예쁜가요?’ 같은 질문은 ‘내 아들이 잘생겼나요?’보다 훨씬 많다.
상당수 부모는 자신도 모르게 남성과 여성에 대한 편견을 아들, 딸에게 투사한다. 그리고 그런 행동은 구글 같은 검색사이트에 고스란히 흔적으로 남는다. 데이터 과학자는 그렇게 쌓인 그 흔적(데이터)을 분석해 우리도 미처 몰랐던 진짜 모습을 찾는다. 어떤가. 이 정도면 데이터 과학에 관심이 생기지 않는가.
페이스북 데이터가 믿지 못할 이유
페이스북과 인스타그램 등 소셜네트워크서비스(SNS) 자료는 알리고 싶은 모습만 게시해 분석용으로 사용하기 어렵다. [shutterstock]
이런 식이다. 2012년 나온 싸이의 ‘강남스타일’ 뮤직비디오는 페이스북을 비롯한 소셜미디어에서 수천만 번 공유됐다. 역시 엄청난 인기를 끈 어떤 포르노비디오는 조회 수만 놓고 보면 ‘강남스타일’ 서른 번에 한 번꼴로 플레이됐다. 하지만 이 포르노비디오를 페이스북 같은 소셜미디어에 공유한 사람은 거의 없었다.
미국의 품격 있는 잡지 가운데 ‘애틀랜틱’이 있다. ‘애틀랜틱’은 판매 부수나 구글 검색 수만 놓고 보면 선정적인 가십성 잡지 ‘내셔널 인콰이어러’와 비슷하다. 하지만 페이스북에서 약 150만 명이 ‘애틀랜틱’ 기사에 ‘좋아요’를 누를 때, ‘내셔널 인콰이어러’에는 약 5만 명만 ‘좋아요’를 누른다. 그러니 페이스북 친구의 멋진 휴가 사진을 부러워할 필요가 없다.
심지어 데이터 과학은 빚을 안 갚을 가능성이 높은 채무자가 누군지도 알려준다. 이 정도면 데이터 과학이 무섭기까지 하다. 하지만 데이터 과학도 못하는 게 있다. 바로 주식시장 예측이다. 수많은 변수가 상호작용하는 주식시장은 예측 자체가 불가능하다. 많은 과학자가 주식시장의 숨은 패턴을 발견하고자 애썼지만, 번번이 엉뚱한 결론만 얻으며 실패로 끝났다. 적어도 아직까지는.