인공지능(AI)업계에서는 최근 하드웨어 경쟁에 불이 붙었다. 현재 인공지능 기술의 선두주자 격인 구글 ‘알파고’와 IBM ‘왓슨’의 핵심 부품이 서로 달라 이들 중 시장 주도권을 잡는 쪽이 인공지능 프로그램뿐 아니라 이를 구동하는 하드웨어 시장까지 선점할 수 있으리라는 예측이 나오고 있다. 이에 후발주자인 애플 등도 독자적 인공지능 전용 하드웨어 개발에 나서고 있다.
IBM 왓슨 등 현재 인공지능 구축에 주로 사용되는 핵심 칩은 GPU(Graphics Processing Uint·영상정보 처리장치)다. 세계 GPU 시장을 독점하다시피 하는 엔비디아(시장점유율 70%)는 정보기술(IT)업계의 신데렐라로 불린다. 게임 구동에 주로 쓰이던 GPU가 인공지능 관련 핵심 부품으로 떠올랐기 때문.
GPU가 인공지능 하드웨어시장의 패권을 잡은 것은 엔비디아가 2006년 출시한 그래픽 프로그래밍 툴킷 쿠다(CUDA) 덕분이다. 쿠다는 GPU에서 수행하는 병렬처리 방식을 일반 프로그래밍에도 적용할 수 있도록 한 기술이었다. 이를 바탕으로 앤드루 응 당시 미국 스탠퍼드대 교수의 인공지능연구팀은 2009년 캐나다 몬트리올에서 열린 ‘머신러닝 국제 콘퍼런스’에서 GPU를 통해 다량의 데이터를 동시에 컴퓨터에 학습시키는 원리를 개발했다는 내용의 논문을 발표했다. 이 방식을 이용하면 인공지능이 1억 개 데이터를 학습하는 데 하루밖에 걸리지 않았다.
전통 강자, GPU
이후 이미지 인식 소프트웨어 경진대회인 ‘2012 이미지넷 경진대회’에서 앨릭스 크리제프스키가 엔비디아의 GPU를 사용해 딥러닝 신경망을 만들어 우승을 차지했다. 다음 해인 2013년에는 대회에 참가한 400팀 가운데 300팀이 엔비디아 GPU를 사용했고 2014년 이후에는 모든 참가팀이 GPU를 사용한 딥러닝 신경망을 출품했다.마크 해밀턴 엔비디아 솔루션 아키텍처 및 엔지니어링 부문 부사장은 5월 25일 서울 양재동 엘타워에서 열린 ‘엔비디아 딥러닝 데이 2017 서울’ 기조연설에서 “현재 인공지능을 본격적으로 다루는 대학이나 기업 연구소의 연구는 100% 엔비디아 GPU를 통해 이뤄지고 있다”고 말했다. 구글 알파고도 프로기사 이세돌 9단과 대국할 당시 GPU를 이용해 만들어진 인공지능이었다.
새로운 시장의 개척은 회사 가치를 급속도로 키웠다. 2013년 엔비디아 경영실적은 총매출 41억3000만 달러(약 4조6500억 원)에 영업이익은 25억1000만 달러(약 2조8200억 원)였다. 3년 뒤인 지난해 엔비디아 매출은 69억1000만 달러(약 7조7700억 원)로 67% 상승했다. 영업이익도 40억6000만 달러(약 4조5700억 원)로 62%가량 늘었다. 주식시장에서도 엔비디아 주가는 지난 한 해 동안 250% 급등했다. 현재 엔비디아 시가총액은 850억4000만 달러(약 95조6700억 원)에 달한다.
엔비디아가 독점하던 인공지능칩 시장에 구글이 도전장을 내밀었다. 차세대 인공지능칩인 TPU(Tensor Processing Unit) 개발에 성공한 것. 구글은 매해 열리는 개발자 콘퍼런스인 구글I/O와 세계 최고 바둑기사 커제와의 대국으로 TPU를 화려하게 시장에 선보였다.
지난해 이세돌 9단과 대국에서 한 번 패배한 알파고는 구글이 새로 개발한 하드웨어인 2세대 TPU로 단단히 무장하고 커제 9단과 3번의 대국에서 완벽한 승리를 거뒀다. 게다가 이번 대국을 앞두고 알파고는 기존에 학습한 기보 외 다른 내용을 추가로 학습하는 절차도 거치지 않았다. 알파고는 자체 학습 기능을 바탕으로 실력을 키워 정상급 바둑기사를 꺾은 것이다. 그만큼 TPU의 능력이 뛰어나다는 증거다.
TPU의 성공적인 시장 데뷔 덕분인지 구글 모회사 알파벳의 주가도 크게 올랐다. 6월 5일(현지시각) 알파벳 주가가 1003.88달러(약 112만9000원)를 기록했다. 알파벳 주가는 올해 초 762달러로 시작했지만 6개월 만에 26.7% 급등한 것.
구글이 개발한 TPU는 구글이 오픈소스로 공개한 인공지능 프로그램의 자가학습(머신러닝 알고리즘) 처리 소프트웨어인 텐서플로(Tensorflow)에 특화된 맞춤형 칩(ASIC·Application Specific Integrated Circuit)이다. 구글은 지난해 5월 1세대 TPU를 공개했다. 1세대 TPU는 IBM 왓슨의 자가학습을 담당하는 GPU와 CPU의 조합에 비해 높은 성능을 보였다. 1세대 TPU 공개 당시 구글은 컴퓨터 성능평가 기준인 ‘벤치마크 문제(benchmark problem)’ 결과 TPU가 GPU와 CPU의 조합에 비해 15~30배 높은 자가학습능력을 기록했다고 밝혔다. 전력 소비 역시 기존 칩에 비해 30~80배가량 적은 것으로 드러났다. 1세대 TPU는 이세돌 9단과 대국에서도 활용됐다.
황철성 서울대 재료공학부 교수는 “인공지능 딥러닝의 구동 원리는 기본적으로 미분방정식 풀이를 통해 최적의 값을 산출하는 과정이다. 2차원에 그려진 곡선을 미분하면 1차원 수식으로 단순화해 쉽게 풀 수 있듯, TPU는 3차원에 펼쳐진 정보들을 2차원, 1차원으로 단순화하는 것에 최적화된 칩이라 볼 수 있다. 이에 반해 GPU 체제는 2차원 수준의 단순화를 반복해 3차원 정보를 인식하는 방식이라 TPU에 비해 효율성이 떨어질 수 있다”고 말했다.
슈퍼컴퓨터 부럽지 않은 TPU
이번 커제와 대결에 쓰인 TPU는 1세대보다 더 높은 성능을 지닌 2세대 TPU다. 2세대 TPU 하나에는 이 같은 작업을 담당하는 산술논리 연산장치(ALU)가 6만5536개 탑재됐다. 이 연산장치들이 병렬적으로 작동하며 문제해결을 하는 방식이다. 최근 구글이 개최한 개발자 콘퍼런스 ‘구글I/O 2017’(현지시각 5월 17~22일)에서 발표한 바에 따르면 문제당 하나의 ALU를 사용하는 CPU에 비해 71배, GPU에 비해 26배의 데이터 처리 성능을 갖췄다.
구글 브레인팀의 인터넷 블로그에 공개된 바에 따르면 TPU는 여러 개를 묶어 사용할 때 더 뛰어난 성능을 발휘하도록 설계됐다. 구글 측은 블로그를 통해 ‘각각의 TPU에는 맞춤 고속 네트워크가 내장돼 TPU 팟(TPU Pod)이라는 머신러닝 슈퍼컴퓨터를 구축할 수 있다’고 밝혔다.
구글이 공개한 TPU 팟은 차세대 TPU 64개로 구성돼 최대 11.5페타플롭(초당 1000조 번 연산처리 단위로, 컴퓨터의 연산성능을 나타내는 척도)의 연산성능을 기록함으로써 인공지능이 딥러닝에 쓰는 시간을 대폭 단축시켰다. 11.5페타플롭은 전 세계 슈퍼컴퓨터 가운데 연산성능 7위를 기록하고 있는 일본 ‘K컴퓨터’의 10.51페타플롭보다 높은 수치다.
이처럼 고성능을 자랑하는 TPU이지만 IBM의 CPU, GPU 통합체제를 완전히 대체하지는 못할 것으로 보인다. TPU가 머신러닝에 특화된 칩이라 CPU를 통해 데이터 출력 등의 기본적인 기능을 보완해야 하기 때문. 커제와 대결한 ‘알파고 마스터 버전’ 역시 TPU 4개로 짜인 TPU 머신과 CPU 200개로 구성됐다.
TPU의 약진에 가장 위기를 느낄 곳은 GPU 생산사인 엔비디아다. 커제와 대국한 알파고는 GPU 없이 TPU와 CPU만 사용했다.
이에 엔비디아는 새로운 인공지능 전용 GPU를 발표했다. 5월 10일 미국 새너제이에서 진행된 ‘GPU테크놀로지콘퍼런스(GTC) 2017’에서 젠슨 황 엔비디아 최고경영자(CEO)는 기조연설을 통해 고성능 GPU아키텍쳐인 볼타(Volta)를 선보였다. 황 CEO의 발표에 따르면 볼타는 210억 개의 트랜지스터로 구축됐으며, CPU 100대와 같은 수준의 성능으로 딥러닝을 구현할 수 있다.
애플도 인공지능 전용 칩 개발에 나섰다. 5월 26일 블룸버그통신의 보도에 따르면 애플은 자율주행차, 증강현실, 시리 등의 기능을 개선하고자 ‘애플 뉴럴 엔진’이라는 인공지능 전용 칩을 개발하고 있다. 애플은 이 새로운 칩을 통해 인공지능 관련 기능을 개선하는 동시에 전력 소모를 줄여 배터리 성능 향상도 노리고 있는 것으로 알려졌다.