-
제 63회 TOP500 수퍼컴퓨터 랭킹 분석 (2024.06)기술이야기/HPC 및 AI 2024. 5. 21. 15:08
안녕하세요, 이스파이스 기술연구소입니다.
매년 2회 발표하는 TOP500 슈퍼 컴퓨터 랭킹의 상반기 결과가 지난 주에 발표되었습니다.
매년 독일에서 6월에 열리는 ISC와 미국에서 11월에 열리는 SC 행사에 맞춰 발표되었는데, 올해는 ISC가 5월인 지난 주에 열렸습니다. 아마도 두 행사 간극을 6개월로 맞추기 위해 바뀐 것 같은데, 여전히 공식 사이트에선 2024-06으로 표기하고 있네요.
11월 행사가 더 규모가 큰 지라 새로운 시스템 등재도 보통 11월에 맞추긴 합니다만, 그렇다고 새로운 시스템 등재가 없는 것은 아니고 작년 11월 리뷰 이후 어떤 변화가 있는지 훑어보는 겸해서 정리를 해보았습니다. 정리하다 보니 흥미로운 점이 꽤 많습니다.
이 분야가 최강 컴퓨팅 기술의 집합체이다 보니, 최상위 기술의 흐름을 이해하는 데 도움이 됩니다.
언제나 그렇듯이 가볍게 읽어 보시면 됩니다. 시작합니다.제63회 순위의 상위 TOP20입니다.
글씨가 작은 경우 이미지를 클릭하면 조금 더 크게 볼 수 있습니다. (데스크 탑에서 보시길 권장합니다)- 신규 시스템 3대, 유럽 시스템이 7대!
일단 5위까지는 변화가 없습니다. 20위 안에 3대의 신규 시스템이 들어왔는데, 2대가 유럽(스위스, 프랑스)입니다. 최근 몇 년간 유럽의 대형 시스템 구축 빈도가 엄청 높아졌습니다.
당장 20위 안에만 해도, 핀란드, 스위스, 이탈리아, 스페인, 프랑스, 네덜란드의 7대의 시스템이 등재되어 있습니다. 10년 넘게 조사를 하면서 가장 높은 점유율인 것 같습니다. - 최초 등재 후에도 성능을 향상을 위한 지속적인 노력
성능 쪽 열을 보면, 지난 제62회에 비해 성능을 높인 시스템이 네 대나 있습니다.
2위인 Aurora의 경우, 지난 회에 구축이 절반 정도 되었다고 했는데 이번에 지난 회 대비 약 1.7배 향상을 시켰습니다.
이론 성능은 1위인 Frontier에 비해 높기에 구축이 완료되고 최적화를 이루면 1위를 달성할 수도 있겠습니다.
스페인에 있는 8위 시스템은 성능을 높여 지난 회에 한단계 위에 있던 Summit을 앞섰습니다. - 새로운 CPU (Intel Xeon CPU Max, NVIDIA Grace) 등장!
Xeon 4세대 프로세서 라인업에 CPU Max라는 제품군이 있습니다. HBM(High Bandwidth Memory)가 포함되어 있는 등 CPU이면서도 HPC 및 AI 워크로드에 특화된 기능을 포함한 프로세서입니다. 2위 Aurora가 이 프로세서를 기본으로 하고 있습니다.
또한, NVIDIA가 2022년에 Hopper GPU 아키텍처를 발표할 때 함께 발표한 Grace 아키텍처가 드디어 세상에 시스템으로 나타났습니다. 정확하게는 GH200이라는 Grace 프로세서와 H100 GPU가 합쳐진 하이브리드 프로세서로 된 시스템인 거죠. 20위 안에 새롭게 등장한 3대의 시스템이 모두 GH200으로 만들어진 시스템입니다.
이는 CPU와 GPU가 NVLINK로 연결되는 것으로, 사실 수년 전에 IBM의 Power 프로세서로 비슷하게 구현된 바 있는데, 이후 IBM이 Power 프로세서 쪽에 집중하지 않으면서 세상에서 사라지는 듯했습니다. 하지만, NVIDIA가 ARM기반의 프로세서로 새롭게 만들어 내면서 다시 이 개념이 등장했습니다.
GH200은 하나의 프로세서로 CPU 및 GPU 워크로드를 모두 커버할 수 있기에, 고성능의 AI 연산이 필요한 edge 환경에서 힘을 보일 것 같습니다. 지금 세대(Hopper)에서는 CPU와 GPU가 1:1 비율로 구성된 하이브리드이지만, 다음 세대인 블랙웰(Blackwwell)에서는 GB200이 CPU 대 GPU 비율이 1:2가 될 예정이라 더욱 GPU 파워가 막강한 하이브리드 프로세서가 될 예정이라 지켜볼 필요가 있어 보입니다. - 20위 안에 18대가 가속기 채택
프로세서 자체가 AI를 타겟으로 설계된 A64FX를 탑재한 4위의 일본의 Fugaku와 수년 전에 1위를 했던 중국의 자체 프로세서를 탑재한 Taihulight를 제외하고 연산을 위한 가속기를 채택한 시스템입니다.
HPC가 점차 대형화되면서 범용 프로세서보다는 연산을 위한 전용 가속기를 채택함으로 해서 성능은 높이고 소비 전력을 낮추기 위한 노력이 가속화되는 것 같습니다. 실제로 전체 시스템을 봐도 가속기의 채택 비율이 점차 높아지고 있습니다.
Top500측에서 요약한 10위 안에 있는 시스템 정보입니다.
2위 Aurora가 두번째로 엑사스케일 시스템이 되었다는 것 외엔 특히 주목할 내용은 없습니다.
사실 Aurora는 수년 전에 지금은 12위인 Sierra, 9위의 Summit과 함께 미국에서 시작한 3대 엑사스케일 프로젝트 중 하나입니다. Xeon CPU Max에 GPU Max 가속기로 구성된 Aurora시스템은 인텔에게도 큰 도전이자 레퍼런스가 될 것 같습니다.성능 발전 추이인데, 현재 1위인 Frontier가 5회째 1위를 유지하고 있습니다.
발전 추이 그래프를 보면 갈색 ▲가 1위 시스템의 성능을 나타내는데, 다음 회차 정도에 새로운 시스템이 등장하지 않을까 예상해 봅니다.
2014년에서 2019년 5년 간에 1위 시스템 성능이 4.4배 증가한 것에 비해, 최근 5년간에 성능은 8.1배 증가하였습니다. 10년 간 1위 시스템의 성능은 약 36배 증가하였고요. 앞으로 5년 후엔 얼마나 더 빨라질까요?국가별 시스템 통계입니다.
국가별 통계는 미국, 중국이 계속 강세인데, 최근 몇 년간 중국이 새로운 시스템 등재를 안(못?) 하고 있어서 알 수는 없습니다. 대신, 앞서 언급한 대로 유럽의 국가들이 많아지고 있고, 한국에 설치된 시스템도 점점 많아지고 있습니다.
대륙별 ‘신규’ 시스템입니다.보통 11월 미국 SC 행사에 미국 쪽 시스템이 대거 등장이 예상되지만, 유럽 시장의 성장세는 확실히 주목할 만합니다.
프로세서 세대별 통계입니다.
지난 회차에 비해 인텔의 Xeon 4세대(Sapphire Rapids)의 시스템 점유율 및 성능 점유율에서 성장 중이고, 앞서 언급한 Xeon CPU Max와 NVIDIA Grace의 신규 등장이 흥미롭습니다.
신규 시스템의 프로세서 정보입니다.
AMD와 인텔 모두 4세대 프로세서들이 다수를 차지합니다.
이제 AMD가 인텔에 구축 사례에서도 뒤지지 않는 것이 인상적인데요, 역시나 NVIDIA의 Grace가 대규모 시스템에 채택되는 것이 가장 눈에 띕니다. NVIDIA가 자기네들의 기본 시스템인 DGX를 Grace로 몰고 간다면, 이 비율 역시 다음 세대인 Blackwell 시대엔 더욱 증가할 수 있지 않을까요?
사용되는 가속기에 대한 정보입니다.전체 500대의 시스템 중에 약 39%에 달하는 193대가 가속기를 사용하는 시스템입니다. 이 비율은 꾸준히 증가하고 있습니다.
NVIDIA의 강세 속에 AMD와 Intel 가속기의 성능 비율이 46% 가까이 되는 것이 주목할 만합니다.
가속기에 대한 폭발적으로 증가한 수요에 대해 NVIDIA의 부족한 공급을 AMD와 Intel가 메우고 있는 모양새처럼 보일 수도 있습니다. 대형 시스템의 AMD, Intel 가속기의 채택은 가속기의 활용이 하드웨어 자체보다는 그 가속기 하드웨어를 받쳐주는 소프트웨어 인프라의 발전에 기인한다고도 볼 수 있을 것 같습니다.
Dell의 PowerEdge XE9680의 경우 AMD의 최상위 가속기인 MI300X로도 구성할 수 있으며, PowerEdge R760XA에서는 NVIDIA, AMD, Intel의 가속기로 구성이 가능합니다.
신규로 등재된 시스템 중에 가속기를 채택한 시스템에 대한 정보입니다.NVIDIA의 H100의 지배는 예상한 것인데, Grace 프로세서와 하이브리드로 구성된 GH200이 새롭게 등장한 것이 인상적입니다. 최신 대형 시스템에 GH200의 점유가 계속 늘어날지는 지켜 봐야겠습니다.
고속 네트워크를 나타내는 인터커넥트 부분입니다.고속 네트워크는 인피니밴드가 대세인 가운데, 400G 속도인 NDR도 늘어나고 있네요. 아무래도 최신 대형 시스템엔 NDR이 채택되는 빈도가 높아지는 것 같습니다.
HPE/Cray의 독자적인 고속 네트워크인 Slinghot은 아무래도 대형 시스템 구축 사례가 많다 보니, 성능 면에서 점유율이 높네요.
신규 등재된 시스템에서 인터커넥트 부분입니다.HPE/Cray(정확하게는 합병 전 Cray)가 10여년 전에 Aries를 Intel에 팔고 난 후에 새롭게 개발한 Slingshot이 안정화되는 것 같습니다. Aries 기술을 구입한 Intel은 그 기술을 참고한 Omni-Path를 내놨지만 별 재미를 못 봤죠. 새로 등재된 시스템들은 200G 이상이 많네요 (200G: Slingshot-11, IB NDR200, HDR / 400G: IB NDR)
업체별 시스템 점유율입니다.HPE는 꾸준히 점유율을 높여가고 있고, Lenovo는 살짝 주춤하네요. Dell도 조금씩 높여가고 있습니다.
역시나 HPE가 100위 이내 대형 시스템에서도 점유는 압도적입니다.
제가 이 조사를 시작한 십수년 전엔 IBM이 50% 가까이 점유하였었는데, 이제 IBM은 사업 방향을 많이 틀어서 이제 보기 힘듭니다.
업체별 성능 점유율입니다.전체 시스템 수 점유율이 33%에 달하는 Lenovo가 성능 점유율은 7%이고, 22% 시스템 점유율인 HPE가 36%의 성능 점유율을 보이는 것에서 규모의 차이를 알 수 있습니다.
성능 점유에서 Microsoft가 다섯 손가락 안에 든다는 것이 그들이 얼마나 이 시장에 집중하고 있는지 보여주는 것 같습니다. 요새 AI 분야에서 가장 적극적인 회사임을 다시 한번 알 수 있지요.
신규 등재된 시스템의 제조사 정보입니다.작은 규모 위주의 Lenovo, 대형 시스템의 HPE가 압도적인 가운데, 미국의 Dell, 일본의 Fujitsu와 NEC도 꾸준하네요.
한국의 시스템입니다.이전 순위에 있던 두 대가 순위권 밖으로 밀려나고, ‘카카오’에서 구축한 2대가 새롭게 등재되어 전체 시스템 수는 13대로 동일합니다. 국내에서도 ChatGPT와 AI/DL 붐으로 기업에서 대형 HPC 구축이 많아지고 있는 것이 확실히 보입니다.
이번에 발표된 TOP500 순위를 훑어본 후의 요약입니다.2대의 엑사-시스템이 순위에 등재되었습니다. 바야흐로 엑사플롭스 시대에 돌입했다 할 수 있겠습니다. 꿈의 성능 같았는데, 벌써 … 😮
프로세서 측면에서 AMD가 인텔에 대등한 시합을 하고 있고, 그 와중에 NVIDIA Grace의 등장이 앞으로 어떻게 될지 궁금해지네요.
마이크로소프트의 확장은 계속될 것 같습니다. 다만, 분명 구글도 초대형 시스템을 구축했을 텐데 물밖으로 보이지 않는 것이 궁금하군요.
AI붐으로 국내에도 시스템 수가 증가하고 있고, 카카오의 2대 등재는 인상적이네요.
이렇게 이번에 발표한 제63회 TOP500 순위를 훑어봤습니다.
전통적인 HPC의 개념도 AI 붐에 그 모양새가 많이 달라지고 있습니다. 블랙웰이 나와봐야 알겠지만, 얼마 전까진 HPC가 AI를 품는 형태였는데, 앞으론 그 반대가 될 수도 있을 것 같습니다.
그럴 조짐도 이미 보이고 있고요.
일반 서버를 다루다 보면 새로운 하드웨어의 쓰임새가 와닿지가 않을 때가 있는데, 이렇게 대형 시스템을 보면 좀 감이 잡히는 것 같습니다.※ 모든 자료는 Top500.org 홈페이지에 공개된 500위까지의 순위 데이터를 이스파이스 연구소 자체적으로 분석 정리한 것입니다.
(주)이스파이스는 Dell Technologies의 Titanium 파트너로서, HPC/AI에 특화된 제품군과 서비스를 제공하고 있습니다.
또한, HPC/AI 연산에 최적화된 병렬 파일 시스템인 BeeGFS의 국내 유일의 파트너로 구축 및 서비스를 제공합니다.
관심있으신 분들은 전화 02-573-1484~5 혹은 이메일 espice@espice.co.kr로 연락주시기 바랍니다'기술이야기 > HPC 및 AI' 카테고리의 다른 글
제 64회 TOP500 슈퍼컴퓨터 랭킹 이야기 (2) 2024.12.04 제 62회 TOP500 수퍼컴퓨터 랭킹 분석 (2023.11) (0) 2023.12.05 제 60회 TOP500 슈퍼컴퓨터 랭킹 분석 (2022.11) (0) 2022.11.22 제59회 TOP500 슈퍼컴퓨터 랭킹 이야기 (2022.06) (0) 2022.06.10 HPC에 대한 이런저런 이야기 - 1부 (0) 2022.04.11 - 신규 시스템 3대, 유럽 시스템이 7대!