‘막말 퇴출’ AI 이루다가 남긴 것

인공지능 챗봇 ‘이루다’. [사진 제공 · 스캐터랩]

“그딴 거(게이) 제일 싫어. 진심으로, 진심으로 혐오해.”

“(흑인은) 그냥 뭔가 징그럽게 생겼어. 깡패 같아.”

인공지능(AI) 챗봇(chatter robot·사람과 자연스레 대화할 수 있는 컴퓨터 프로그램) ‘이루다’가 장애인 혐오 및 인종 차별 발언을 쏟아내 충격을 주고 있다. 실제 사람과의 대화를 딥러닝(deep learning·프로그램의 자가 데이터 분석·학습)한 결과다. 전문가들은 “AI가 학습하는 데이터가 사회 통념에 맞는지 개발자들이 점검해야 한다”고 지적한다.

이루다는 지난해 12월 23일 국내 AI 개발 전문 스타트업 ‘스캐터랩’이 출시한 애플리케이션(앱)이다. 이용자가 PC(개인용 컴퓨터)나 스마트폰에 설치한 앱으로 문자메시지를 보내면 AI 프로그램이 실제 사람처럼 답변한다. 개발업체는 이루다에게 사람과 같은 캐릭터를 부여했다. 성(姓)은 이, 이름은 루다인 20세 여대생이다. 좋아하는 가수는 걸그룹 ‘블랙핑크’, 취미는 ‘친구들이랑 페메(페이스북 메신저)하기’처럼 구체적이다.

하지만 출시 후 얼마 안 돼 이루다가 혐오·차별 발언을 학습한 게 아니냐는 논란이 제기됐다. 특정 단어(게이·레즈비언 등 성적 지향, 장애인 등 소수자)를 포함한 질문에 이루다가 부정적으로 답한 것. “레즈비언이 왜 싫냐”고 묻자 “질 떨어져 보이잖아. 나는 싫어”라고 답하거나 장애인을 두고 “(인권도) 없음 인생 잘못 살았음”이라고 말했다.

딥러닝 데이터베이스가 관건

인공지능 챗봇 ‘이루다’가 소수자 ‘혐오 발언’을 쏟아냈다. [SNS 캡처]

글로벌 IT 기업 ‘구글’은 지난해 1월 출시한 대화형 AI ‘미나(Meena)’를 개발하는 과정에서 ‘SSA(Sensibleness and Specificity Average)’ 척도를 고안했다. AI가 이용자와 얼마나 자연스럽게 대화할 수 있는지 평가하는 기준이다. 스캐터랩에 따르면 이루다는 SSA 78%를 기록했다(실제 인간은 평균 86%, 미나는 76~78%). 대화형 AI는 이용자의 발화(發話) 내용과 양상을 스스로 학습해 점점 사람처럼 대화할 수 있다.

결국 이루다 개발업체가 AI의 대화 기능을 개선하는 데 치중한 나머지 딥러닝의 기본 자료로 쓰이는 데이터를 제대로 점검하지 않았다는 비판을 받게 됐다. 이를 두고 전창배 한국인공지능윤리협회 이사장은 “개발자도 AI 프로그램이 무엇을 학습하고 어떻게 변화할지 완전히 예측하긴 어렵다. 기획 단계부터 이루다의 딥러닝을 제어할 적절한 조치를 취했어야 한다. AI의 혐오 표현을 미성년자 등 이용자가 역으로 학습할 개연성도 배제할 수 없다”고 지적했다.

개발업체가 딥러닝에 이용자 개인정보를 부적절하게 사용했다는 의혹도 제기됐다. 스캐터랩 측은 이루다 개발 과정에서 실제 소셜네트워크서비스(SNS) 대화 데이터 100억 건을 딥러닝했다고 밝혔다. 스캐터랩이 출시한 또 다른 앱 ‘연애의 과학’ 이용자들로부터 수집한 카카오톡 대화 내용이다. 해당 앱은 연인과 나눈 카카오톡 대화를 분석해 상대방의 심리 상태를 해석해준다. 문제는 이루다 구동 과정에서 ‘연애의 과학’ 이용자의 개인정보가 그대로 노출됐다는 점이다. 이루다는 “주소가 무엇이냐”는 질문에 “◯◯시 ◯◯동 ◯◯아파트”(연애의 과학 이용자 주소로 추정)라고 답하기도 했다.

이용자들은 이루다 딥러닝에 자신의 개인정보가 사용된 것에 반발했다. “SNS 대화 내용을 ‘연애의 과학’ 쪽에만 제공한 것이지, 이루다 개발에도 활용하라고 동의한 적은 없다”고 주장했다. 이에 대해 스캐터랩 측은 1월 11일 입장문을 통해 “연애의 과학 이용자들과 충분히 소통하지 못한 점에 대해 진심으로 사과한다”면서도 “사전에 (이용자) 동의가 이뤄진 개인정보 취급 방침의 범위에서 활용했다. 데이터 비식별화(알 수 없게 만듦), 익명화 조치로 개인을 특정할 수 있는 정보는 유출되지 않았다”고 밝혔다. 같은 날 업체는 이루다 서비스를 잠정 중단했다. 1월 15일 스캐터랩은 이루다 데이터베이스와 딥러닝 모델을 폐기하겠다고 밝혔다.

개발업체 직원이 이용자의 SNS 대화 내용을 유출했다는 의혹도 있다. 1월 12일 ‘연합뉴스’ 보도에 따르면 한 전직 스캐터랩 직원은 “(스캐터랩의) 한 개발자가 고객들의 성관계 관련 대화 로그(익명화된 대화 자료)를 캡처해 회사 전체 대화방에 공유했다”고 주장했다. 이에 대해 스캐터랩 측은 “진상 조사 중이다. 사실로 드러나면 관련자에게 엄중히 책임을 묻겠다”고 밝혔다. 일부 이용자는 법적 대응을 준비하고 있다.

법적 대응 가능할까

개인정보 유출 의혹과 관련해 스캐터랩 측에 법적 책임을 물을 수 있을까. 이상직 변호사(대통령 직속 국가지식재산위원회 위원 · AI-지식재산특별전문위원장)는 “현행법(개인정보 보호법)상 별도 동의 없이도 익명 처리한 개인정보를 이용할 수 있다. 다만 공익이나 기업의 연구개발 목적에 국한한다. 연구 외 목적으로 개인정보를 함부로 이용·노출했다면 법적으로 문제가 될 수 있다”고 지적했다.

비영리 사단법인 오픈넷의 김가연 변호사는 “법적으로 개인정보는 사람을 특정할 수 있는 종합적 정보를 뜻한다. 이름, 주소 등 일견 민감한 정보도 파편화돼 누구인지 드러나지 않는다면 노출에 대해 법적 책임을 묻기 어렵다”며 “업체(스캐터랩)에 대한 윤리적 비판은 가능하겠으나 현 상황에서 개인정보 보호법 위반이라고 단언하기는 어렵다”고 말했다.

1월 11일 국무총리실 산하 개인정보보호위원회와 한국인터넷진흥원은 스캐터랩의 개인정보 보호법 위반 혐의를 조사할 것이라고 밝혔다.

김우정 기자

friend@donga.com

안녕하세요. 주간동아 김우정 기자입니다. 정치, 산업, 부동산 등 여러분이 궁금한 모든 이슈를 취재합니다.

8조 규모 차기 구축함 사업, HD현대·한화오션 경쟁입찰로

[오늘의 급등주] ‘통합 HD현대중공업’ 훈풍에 현대마린엔진 강세