엔비디아, 챗GPT 성능 2배로 올리는 새 AI용 칩 ‘H200’ 공개

엔비디아가 H100 후속 제품으로 공개한 H200. [엔비디아 제공]

지난해 11월 오픈AI의 챗GPT가 도입되면서 인공지능(AI) 환경이 크게 바뀌기 시작했다. 구글, 마이크로소프트(MS), 메타 등 주요 빅테크 기업의 AI 데이터센터에서 그래픽처리장치(GPU) 역할이 중요해진 것이다. 가장 강력한 칩메이커 엔비디아의 H100은 비싼 가격에도 생성형 AI와 클라우드 서비스 등에서 고성능 칩 수요가 증가함에 따라 품귀 현상이 이어지고 있다. AI 기업의 H100 사재기 광풍이 부는 가운데 새롭게 발표된 후속 제품 H200의 성능이 얼마나 향상됐으며 공급 부족 문제가 개선될지 관심이 쏠리고 있다.

엔비디아는 11월 13일 미국 콜로라도주에서 열린 ‘슈퍼컴퓨팅 2023’에서 생성형 AI 훈련을 위한 최신 GPU인 H200을 공개했다. 이언 벅 엔비디아 HPC(고성능 컴퓨팅) 제품 담당 부사장은 이날 “생성형 AI와 HPC 애플리케이션(앱)을 구동하려면 대규모 GPU 메모리를 통해 방대한 데이터를 빠르고 효율적으로 처리해야 한다”며 “AI 슈퍼컴퓨팅 플랫폼 H200을 통해 중요 과제를 해결하는 속도가 더욱 빨라질 것”이라고 말했다.

H200, 효율성 최적화

GPT-3에 H200을 적용하면 A100에 비해 18배 빠른 성능을 나타낸다. [엔비디아 제공]

H200은 생성형 AI와 HPC 등 계산량이 많은 작업에서 처리 성능을 가속화하는 동시에 GPU 활용도와 효율성을 최적화하는 데 초점을 맞춘 제품이다. 특히 H200은 오픈AI의 최신 거대 언어 모델(LLM) GPT-4를 훈련시키는 데 최적화된 칩이다. 이전 제품인 H100에 비해 메모리 부문에서 의미 있는 업그레이드가 이뤄졌다. 바로 5세대 HBM(고대역폭메모리)인 HBM3E가 도입된 것이다. HBM3E는 4세대 HBM3보다 훨씬 더 많은 용량과 큰 메모리 대역폭을 제공함으로써 고성능 프로세서에서 증가하는 작업 부하를 감당할 수 있도록 돕는다.

HBM은 D램 여러 개를 수직으로 쌓아올리고 연결해 대역폭이 더 넓어진 메모리를 말한다. 대역폭이란 주어진 시간 내 데이터 전송 속도와 처리량, 즉 데이터 운반 능력을 뜻한다. 챗GPT나 구글 바드, 미드저니 등 AI 서비스가 발전할수록 폭발적으로 증가하는 데이터를 효율적으로 빠르게 처리하기 위해 더 뛰어난 메모리 성능이 요구되고 있다. 이에 등장한 HBM 메모리 기술은 시스템 성능과 전력 효율 개선에도 영향을 미친다.

H200은 HBM3E를 적용해 메모리 대역폭을 H100의 초당 3.35TB(테라바이트)에 비해 초당 4.8TB로 눈에 띄게 끌어올렸다. 이는 30GB(기가바이트) 용량의 UHD 영화 160편을 1초 만에 처리하는 것과 같은 속도다. 전체 메모리 용량도 H100의 80GB에서 141GB로 늘어났다. 이전 제품인 A100에 비해서는 거의 2배 용량과 2.4배 대역폭을 제공하는 성능이다.

H200을 챗GPT 같은 생성형 AI 모델에 직접 사용한다면 작업 속도가 얼마나 빨라질까. H200은 H100에 비해 최대 90%까지 성능을 향상시키는 것으로 알려졌다. 700억 개의 매개변수를 가진 메타의 LLM 라마2에 H200을 테스트해보니 H100에 비해 신경망 추론 속도가 2배가량 향상되는 안정적인 결과가 나왔다. 또 1780억 개 매개변수를 가진 LLM GPT-3에 적용할 경우 기존 A100보다 최대 18배 높은 성능을 나타냈다. 엔비디아는 H200에 이어 후속 모델인 B100을 내년 출시할 것으로 알려졌다. B100은 블랙웰(Blackwell) 아키텍처를 기반으로 설계돼 H200에 비해 성능이 2배 이상 향상될 전망이다.

H200은 H100을 지원하는 동일한 시스템과 호환되도록 설계돼 여러 폼팩터로 제공된다. 여기에는 4방향 및 8방향 구성의 H200 서버 보드가 포함되며 H100 시스템의 하드웨어 및 소프트웨어와 모두 호환 가능하다. 또한 CPU와 GPU를 하나의 패키지로 결합한 엔비디아의 GH200 그레이스 호퍼 슈퍼칩(Grace Hopper Superchip)도 사용할 수 있다. GH200 그레이스 호퍼 슈퍼칩은 TB 규모의 HPC 앱에 더 높은 성능을 제공하도록 설계된 AI용 칩이다. 72코어 그레이스 CPU와 후퍼 H100 GPU에 480GB LPDDR5X 메모리가 결합돼 만들어졌다. 내년 출시될 업데이트 버전에는 H200이 적용돼 HBM3E를 지원하게 된다. 8개의 H200이 결합된 GH200은 딥 러닝을 위해 최대 1.1TB의 HBM3E와 32페타플롭스의 FP8(8비트 부동소수점) 성능을 제공할 예정이다. 이를 통해 H200은 온프레미스(on-premise: 소프트웨어나 시스템이 사용자의 내부 네트워크에 설치·운영되는 환경), 클라우드, 하이브리드 클라우드와 에지를 비롯한 모든 유형의 데이터센터에 배포될 수 있다.

GPU 확보 전쟁

H100을 겨냥해 출시되는 AMD의 신제품 MI300X. [AMD 제공]

무엇보다 엔비디아의 H200은 AI업체들이 필사적으로 H100을 구하고 있는 가운데 발표된 신제품이라 더욱 주목받는다. 엔비디아 칩은 생성형 AI와 LLM에 필요한 엄청난 양의 데이터를 효율적으로 처리하는 데 반드시 필요한 핵심 모듈이다. 현재 전 세계 생성형 AI에 필요한 칩 시장은 엔비디아가 80% 이상을 선점하고 있다. 그러나 수요에 비해 공급이 크게 부족해지면서 기술업체들의 H100 확보 전쟁이 이어지고 있다. GPU의 희소성과 필수불가결성으로 엔비디아에 대한 의존도는 계속 커져만 가는 상황이다. 이에 엔비디아 측은 내년까지 H100 생산량을 3배로 늘릴 계획이라고 밝힌 바 있다. 목표는 올해 약 50만 개, 내년까지 최대 200만 개를 생산하는 것이다. 하지만 생성형 AI와 클라우드 서비스 또한 지속적으로 증가하고 있어 충분한 공급이 이뤄질지는 미지수다.
엔비디아는 내년 2분기 H200의 글로벌 출시 계획을 밝혔다. 아마존, 구글, MS, 오라클 등 클라우드 서비스업체와 테크놀로지스, HP엔터프라이즈, 레노버 등 서버 공급업체를 통해 새로운 GPU를 제공할 예정이다. H200 가격은 아직 공개되지 않았지만, 출시된다면 성능이 향상된 만큼 H100 가격에서 더 인상될 것으로 보인다. 현재 H100은 주문량에 따라 개당 약 2만5000~4만 달러(약 3255만~5200만 원)에 판매되고 있다. 생성형 AI를 개발하고 훈련이 가능한 모델을 만들려면 다량의 칩이 필요하다. AI 분야의 많은 기업이 H100을 수천 개씩 구매하고 있다. 오픈AI는 챗GPT 상용화를 위해 3만 개 넘는 A100 GPU를 필요로 했다.

앞다퉈 AI용 칩 출시하는 경쟁사들

마이크로소프트가 자체 개발한 AI용 칩 마이아100. [마이크로소프트 제공]

AI용 칩이 중요 컴퓨팅 자원으로 떠오르면서 제조업체로서 선두를 달리는 엔비디아는 엄청난 수익성을 확보한 것은 물론, 기업가치가 1조 달러(약 1302조 원)를 넘어서며 반도체 분야의 독보적 1위를 유지하고 있다. 아마존, 구글, MS, 인텔, AMD 등 기술업체들이 AI가 주도할 미래에 대비하고자 차세대 프로세서 개발에 적극 나서고 있으나, 이번 H200 공개로 엔비디아가 AI용 칩 분야에서 당분간 최강자 자리를 유지할 것으로 보인다.

엔비디아에 맞서는 가장 강력한 경쟁사로 손꼽히는 AMD는 6월 신제품 ‘MI300X’를 선보였다. H100을 겨냥한 MI300X는 H100에 비해 메모리 밀도가 2.4배 높고 대역폭은 1.6배 크다. H100을 능가하지만 H200에는 못 미치는 사양이다. 최근 인텔은 내년 출시될 3세대 가우디3 AI용 칩이 96GB에서 144GB로 메모리 용량이 늘어날 것이라고 밝혔다. 인텔의 또 다른 AI용 칩 제품군인 인텔 맥스 시리즈 GPU는 현재 최대 128GB의 HBM2를 지원하지만 향후 세대에서는 칩 용량을 늘릴 계획이다. MS 또한 자체 개발한 AI용 GPU인 마이아100을 공개했다. 마이아100은 엔비디아의 H100과 마찬가지로 생성형 AI의 LLM을 훈련시키고 실행하는 데이터센터 서버 구동용으로 설계된 칩이다. 외부 판매 전 자체 AI 기반 소프트웨어와 애저 클라우드 서비스의 성능을 높이고 GPU 수급 문제를 해결하는 데 활용될 계획이다. 스콧 거스리 MS 클라우드 및 AI그룹 부사장은 ‘파이낸셜타임스’를 통해 “마이아100 GPU 개발로 더욱 최적화된 AI 아키텍처는 AI용 칩 공급업체에 대한 의존도를 줄여줌으로써 고객에게 저렴한 모델을 제공하게 해준다”며 ”이런 근본적 투자는 AI 기술과 관련해 향후 10년간 혁신을 이끌어가는 데 도움이 될 것”이라고 밝혔다.

_{*유튜브와 포털에서 각각 ‘매거진동아’와 ‘투벤저스’를 검색해 팔로잉하시면 기사 외에도 동영상 등 다채로운 투자 정보를 만나보실 수 있습니다.}