-
제 60회 TOP500 슈퍼컴퓨터 랭킹 분석 (2022.11)기술이야기/HPC 및 AI 2022. 11. 22. 18:02
안녕하세요, 이스파이스 기술연구소입니다.
1년에 두 번 공개하는 TOP500 슈퍼컴퓨터 순위가 지난 주에 발표되었습니다.
이 순위는 6월 독일 ISC (International Supercomputing Conference)와 11월 미국 SC (Supercomputing Conference)에서 발표됩니다.
11월 중순에 미국 댈러스에서 있었던 SC22에 참관하면서, TOP500 순위 발표 세션도 보고 와서
시스템에 대한 얘기 및 그들이 새롭게 전달하고자 하는 내용을 반영하여 기존 정리보다 조금 더 새로운 내용도 있습니다.
HPC 분야의 내용이긴 하지만, 서버 업계의 가장 최신/최강 기술을 다룬 분야라 최신 동향 이해에 도움이 될 겁니다.
내용이 길지만 어려운 얘기는 아니어서, 차 한잔 마시면서 차근차근 보시기 바랍니다.
일단 TOP500 공홈에 올라온 주요 뉴스들 번역입니다.
기본적으로 1-3위는 지난 6월과 동일합니다. 다만, 3위의 핀란드 시스템이 규모를 2배로 확장해서 성능치도 2배로 증가했습니다. 그래도, 2위를 못하죠. 그 정도로 상위권은 각 순위간 성능차가 많이 납니다.
4위가 새롭게 들어왔네요. 지난 번에 등장한 3위의 핀란드의 LUMI, 4위가 이탈리아의 Leonardo 등 예전엔 보기 힘들었던 유럽 국가들에 대형 시스템 구축이 주목할 만합니다.
일단 20위까지 순위를 보고, TOP10에 대한 공식 뉴스를 보겠습니다.
20위 안에는 3대의 새로운 시스템이 진입했습니다.4위에 등재된 이탈리아의 Leonardo는 특이하게도 NVIDIA A100인데 인텔 Icelake 아키텍처 기반의 Xeon 83xx로 구축했네요. 인텔이 PCI-Express Gen4를 지원하는 프로세서만 예정대로 냈어도 이리 AMD에 밀리진 않았을 텐데 싶은 부분입니다.
10위 안에는 새로운 4위 외엔 새로운 시스템은 없습니다. 10위 내에 1등 안 해본 시스템이 5대네요.
원체 큰 시스템들이라 거의 10년 전(41회)에 1위로 등장한 Tianhe-2A는 아직도 10위에 위치하고 있습니다.
이 시스템 소비 전력이면 요즘 같으면 거의 3위권 이내일 것 같은데, 대형 시스템은 유지도 쉽지 않습니다.
그래서, 큰 규모 HPC를 운영하는 곳들이 5년 정도에 한 번씩 교체하는 게 이런 이유도 크다고 생각합니다.
다음은 공식 뉴스의 이런 저런 이야기입니다.위의 내용은 앞으로 다룰 내용에서 같이 확인해 보죠.
TOP500 내의 시스템들 성능의 추이를 먼저 보죠.그래프 아래 설명에도 있지만, 위쪽에 위치한 녹색 점들은 500위 성능을 모두 합한 것, 중간은 1위 시스템의 성능, 제일 아래쪽 파란 점은 500위 시스템 성능입니다.
그래프 옆에 설명을 넣었지만, 예전에 시스템 성능은 ‘무어의 법칙’에 상당히 잘 따른 편이라 할 수 있습니다.
인텔의 창립자이자 반도체 엔지니어였던 고든 무어(Gordon Moore)란 분이 ‘반도체 집적 회로의 트랜지스터 수는 2년 마다 2배가 된다’라는 말이 ‘무어의 법칙’이라고 반도체 계에서는 거의 법칙이 된 거죠.
인텔에서는 한동안 내부적으로 개발자들을 이 법칙에 맞춰 신제품을 만들어내라고 재촉했다고 하는 말이 있을 정도였지요.
그러다가 그게 2008년 중간부터 한풀 꺾이고, 2013년 중간부터 또 한 번 꺾입니다. 이번 발표장에서 이 변화점에 대해 논의가 있었는데요, 별로 솔깃한 얘기는 없었습니다.HPC는 프로세서 단품의 성능이 아닌 대형 시스템의 성능을 고려해야 하는데, 병렬 컴퓨팅을 하는 현대의 HPC에서 성능 향상은 소비 전력의 상향을 동반할 수밖에 없고, 그러다 보니 시스템 구축에 제한이 생길 수밖에 없습니다. 앞서 언급한 두 번의 변화 시점을 근거로 새롭게 점선을 그려보면, 1위 시스템보다 500위 시스템의 성능 향상이 더디게 갈 것을 예상해볼 수 있습니다.
최근 중국이 TOP500에 시스템 등재를 확실히 자제한다는 느낌입니다. 분명히 시스템 구축을 줄이진 않을 텐데, 그 점유율이 꾸준히 낮아지는 점에서 그렇습니다.
TOP10에서 짐작해 봤듯이 유럽에 대형 시스템이 구축되는 붐(?)이 있는지 독일이 시스템 수에서 부동의 3위일 것 같은 일본을 제치고 3위로 올라섰네요.
별로 IT랑 안 친할 것 같은 브라질이 우리나라와 같은 수의 시스템을 보유하게 된 점도 흥미롭습니다.대륙으로 보면 중국, 일본, 한국의 아시아가 시스템 수는 많지만, 대형 시스템이 많은 북미에 성능 점유율이 높네요.
유럽에 대형 시스템이 많이 설치되면서 유럽의 점유율이 역대급으로 높아졌습니다.
앞서 국가별 차트에서 보이듯이 남미도 조금 늘었습니다. 호주도 20위 권에 하나 올리면서 성능 그래프에서 조금 면적을 확보하였네요.이번 SC22에서 TOP500 발표회장에서 순위 데이터로 새롭게 소개한 부분이 신규 유입 시스템에 대한 분석이었습니다.
흥미롭고 의미 있다 생각해서 저도 몇가지 내용으로 신규 시스템을 정리해 보았습니다.앞에서 계속 언급한 건데, 유럽에 신규로 대형 시스템이 확실히 많이 설치되었다는 것이 눈에 딱 보이네요.
수량으론 새롭게 설치된 건 1대 밖에 없는 오세아니아는 20위 안에 들어가면서 수적으로 더 많은 아시아, 남미보다 성능 지분은 더 많습니다.시스템에 사용된 프로세서들입니다. 일단 인텔 Xeon이 많기는 합니다만, 대형 시스템에 채택이 많아지면서 AMD Milan의 성능 점유율이 굉장합니다. HPC 분야에서는 AMD Milan이 대세라고도 할 수 있겠습니다.
그 이유 중 가장 큰 이유는 PCI-Express Gen4 기반의 NVIDIA GPGPU A100을 지원할 수 있는 프로세서의 출시가 인텔에서 늦어지면서, 그 베이스가 되는 시스템이 AMD로 넘어간 것이 가장 크다 하겠습니다.
다음 세대의 NVIDIA GPGPU인 PCI-Express Gen5를 기본으로 하는 Hopper 아키텍처 기반의 H100가 곧 출시 예정이고,
이를 뒷받쳐 줄 PCI-Express Gen5를 지원하는 프로세서가 인텔과 AMD에서 모두 출시하기 직전이라 이 점유율도 앞으로 큰 변화가 생길 수 있을 것 같습니다.
하지만, SC22 전시장에서도 인텔보다는 AMD가 확실히 더 대세라고 느껴졌습니다.새로운 시스템 중에서도 AMD Milan의 상당한 강세인데, Xeon Platinum 83xx + NVIDIA A100으로 구축된 대형 시스템이 몇 대 진입하면서 Xeon Platinum 83xx의 점유율이 꽤나 커진 점도 특이합니다.
가속기의 활용은 꾸준히 늘어나고 있습니다. NVIDIA가 대세인 가운데, 대형 시스템에는 AMD Instinct MI-250X가 속속 채택하고 있어 가속기도 시장 변화가 생기고 있습니다.
우리나라에서는 전혀 느끼지 못하는 부분인데, 전시장에서도 AMD Instinct 지원한다고 홍보하는 시스템이 참 많았습니다.가속기를 탑재한 신규 시스템도 여전히 A100이 많긴 합니다.
1대 밖에 없어서, 눈에 잘 안 띄는데, Lenovo에서 NVIDIA의 차세대 GPGPU인 H100을 탑재한 시스템을 하나 등재시킨 것이 보입니다.
내년 6월 순위에는 H100을 탑재한 시스템이 꽤나 등장할 것 같은데 AMD와 제대로 붙어볼 수 있을 지 궁금해집니다.병렬 클러스터형 슈퍼컴에서 고속 네트워크도 꽤나 중요한 부분입니다.
인피니밴드는 200G의 HDR이 성장하고 있는데, 이더넷도 속도도 100G까지 올라가고, RDMA도 지원하면서 차츰 많이 쓰이고 있네요. 또한, 시스템 칩셋에서 지원하는 기본 이더넷이 25G로 빨라지면서, 25G 이더넷은 10G 이더넷을 빠르게 대체해가고 있다고 하겠습니다.
이 부분에서 하나 부연 설명하자면, 이더넷 커넥터/케이블이 SFP 타입이 있고, QSFP(Quad SFP_라는 것은 이 SFP 신호가 4개 들어 들어가 있는 겁니다. 그러니까, 10G 기반의 SFP의 4배는 40G QSFP가 되는 것이고, 새롭게 25G 기반의 SFP의 4배는 100G QSFP가 되는 거지요.비교적 작은 시스템을 많이 하는 것으로 보이는 Lenovo와 대형 시스템을 많이 하는 HPE가 전체 시장의 절반을 차지하고요, 중국 기반의 회사가 전체의 1/4, 나머지 부분이 Atos와 Dell 순서대로 점유하고 있네요.
앞에서 시스템 수로는 1/3에 가깝게 차지하는 Lenovo지만 성능 규모 면에서는 HPE/Cray 막강합니다.
유럽의 약진 선봉장인 Atos가 지분율을 높이고 있고, 2위 Fugaku를 갖고 있는 후지쯔는 생각보다 세력 확장이 안 되고 있네요.지난 회차에서 AMD MI250X가 등장하면서 소비 전력 대비 성능 면에서 휩쓸었는데, 단 1대 등재된 H100이 AMD MI250X 돌풍을 한 방에 잠재웠습니다. 아직 1대 밖에 안 되어서 충분히 믿을 만한 값인지는 알기 어렵지만, 일단 다음 순위를 기대하게 하는 부분 중 하나입니다.
HPC의 구축이라는 것이 소비 전력과 냉각 시스템과의 싸움이라 할 정도로 이 부분은 중요한데, SC22 전시장에서도 이 부분이 많이 느껴졌습니다. 예전엔 두어 업체만 보이던, 수냉 솔루션 업체가 엄청 많아졌습니다. 공기만으로는 냉각이 어려워서 소비 전력을 향상시키기 어려웠던 프로세서나 가속기가, 냉각 기술의 발전으로 소비전력이 높아지고 있는 것이 수냉 솔루션 업체의 증가로 보여지는 것 같았습니다.크게 신경 쓰지는 않는 부분이지만, 현재 TOP500은 HPL(High Performance Linpack)이란 벤치마크를 기준으로 하는데 보완하는 의미의 HPCG란 벤치마크도 가끔 RFP 같은 데에 언급되고 있습니다.
현재 TOP500 1위 시스템인 Frontier가 지난 회차에서는 HPCG값이 없었는데, 이번에 등록했는데 2위입니다. 아직 최적화가 안 된 것 같아요.앞선 차트에도 설명했듯이 HPC 개념도 좀 바뀌고 있습니다.
머신러닝(ML)/AI 쪽에서는 계산 정밀도가 기존 HPC와는 다르고, ML/AI쪽에 최적화된 가속기가 나오는 상황이다 보니 이를 위한 벤치마크도 속속 등장하고 있습니다.
이를 위해 HPL-AI라는 것이 등장했는데, 명칭이 이번에 HPL-MxP로 바뀌었네요. 아직 최신 정보가 취합이 안 되었는지 2022-11 결과는 업데이트되지 않았습니다.업체별 주력 분야가 여기서 보입니다. 산업 부문에선 Lenovo가 강세, 연구 부문에서는 HPE가 강세입니다.
나라별로는 미국은 연구, 산업 부문에서 골고루 사용하고 있고, 중국은 산업 부문에서 많이 쓰고 있나 봅니다.
요즈음이 가장 한국에 시스템 구축이 활발한 것 같습니다. 이번에 2대가 새로운 시스템이 등재되었어요.
또한, 한국은 새로운 시스템의 도입이 확실히 느립니다.
세계적인 레퍼런스가 어느 정도 구축되어야 국내 대형 사이트가 새로운 사양을 도입 고려를 하다 보니 그런 것 같습니다.
솔루션의 경우에도 비슷해서 해외에서 아무리 많이 쓰는 솔루션이라도 국내 구축 사례가 없으면 도입이 어렵지요.이번 회차는 어찌 보면 지난 회차와 그닥 새로운 것은 없는데, 큰 폭풍 전야 같다는 생각도 듭니다.
인텔과 AMD가 모두 새로운 프로세서 출시를 앞두고 있고요.
NVIDIA 역시 새로운 Hopper 아키텍쳐인 H100 GPGPU를 출시를 앞두고 있습니다.
거기에 NVIDIA가 ARM 아키텍처 기반의 Grace란 프로세서 출시도 앞두고 있어 인텔과 AMD와 한 판 붙을 수도 있을 것 같아 내년 이후가 굉장히 치열할 것 같습니다.
(주)이스파이스는 Dell Technologies의 Titanium 파트너로서, HPC에 대한 전반적인 컨설팅에서 구축/서비스까지 제공합니다.
관심있으신 분들은 전화 02-573-1484~5 혹은 이메일 marketing@espice.co.kr로 연락주시기 바랍니다.
'기술이야기 > HPC 및 AI' 카테고리의 다른 글
제 63회 TOP500 수퍼컴퓨터 랭킹 분석 (2024.06) (0) 2024.05.21 제 62회 TOP500 수퍼컴퓨터 랭킹 분석 (2023.11) (0) 2023.12.05 제59회 TOP500 슈퍼컴퓨터 랭킹 이야기 (2022.06) (0) 2022.06.10 HPC에 대한 이런저런 이야기 - 1부 (0) 2022.04.11