GTC 2022 Keynote with NVIDIA

GTC 2022 Keynote with NVIDIA
Photo by Christian Wiediger / Unsplash

2022년 3월 23일, 젠슨 황의 NVIDIA GTC 2022 Keynote 세션이 열렸습니다. NVIDIA 가 그리고 있는 큰 그림에 대해 알아보려고 합니다.

AI Ecosystem

NVIDIA는 AI Ecosystem 을 구축하려고 하고 있습니다. 단순히 하드웨어만 만드는 회사에서 끝나는 것이 아니라 사용자가 실제로 쓸 수 있는 애플리케이션까지 만드는 것입니다. 크게 4가지 layer로 나눠서 개발 중입니다.

  1. 하드웨어
    GPU, CPU, Network, NVlink 등을 개발하고 이를 조합하여 목적에 맞게 RTX, DGX, OVX, SuperPOD 등을 만들고 있습니다.
  2. 시스템 소프트웨어
    RTX, CUDA, PHYSX 3가지가 존재하며 low-level에서 NVIDIA의 Hardware를 사용할 수 있습니다.
  3. 플랫폼
    NVIDIA HPC, NVIDIA AI, NVIDIA OMNIVERSE 3가지가 존재합니다. 확장가능한 GPU가속 애플리케이션, AI 애플리케이션, 디지털 트윈을 이용하는 애플리케이션을 사용 가능하게 합니다.
  4. 애플리케이션 플랫폼
    이번 GTC에서 총 60여개의 SDK가 등장했습니다.

모든 것이 모듈화되어있어 어떤 것이든 쉽게 사용 가능합니다. NVIDIA는 자사 애플리케이션을 개발함으로써 하드웨어부터 시스템 소프트웨어, 플랫폼까지 모든 것을 아우르는 미래를 보고 있습니다.

HARDWARE

NVIDIA GPU: H100

NVIDIA는 1998년부터 GPU를 생산하였습니다. NVIDIA의 시작부터 현재까지 모든 "microarchitecture (출시연도): 해당 microarchitecture를 사용한 GPU 목록"은 다음과 같습니다.

  • Fahrenheit (1998): RIVA TNT
  • Celsius (1999): GeForce 2 series
  • Kelvin (2001): GeForce 3, 4 series
  • Rankine (2003): GeForce 5 series
  • Curie (2004): GeForce 6, 7 series
  • Tesla (2006): GeForce 8, 9, 100, 200, 300 series
  • Fermi (2010): GeForce 400, 500 series
  • Kepler (2012): GeForce 600, 700, 800 series
  • Maxwell (2014): GeForce 900 series, Quadro Mxxx series
  • Pascal (2016): GeForce 10 series (GeForce GTX 1070, 1080)
  • Volta (2017): Tesla V100, Titan V
  • Turing (2018): GeForce GTX 16 series (GeForce GTX 1650), GeForce 20 series (GeForce GTX 2060, 2070, 2080, 2080Ti), Quadro (Quadro RTX 4000 ~ Quado RTX T1000), Nvidia Tesla (Tesla T4)
  • Ampere (2020): GeForce 30 series (GeForce RTX 3060, 3070, 3080, 3090, 3090Ti), RTX A series (formerly Quadro, RTX A2000 ~ RTX A6000), Nvidia Data Center GPUs (formerly Tesla, NVIDIA A100)
  • Hopper (2022): Nvidia Data Center GPUs (Nvidia H100)

Tesla 때 CUDA가 처음 등장하여 NVIDIA GPU의 역사를 다룰 때 Tesla 이후로만 보기도 합니다. NVIDIA GPU의 변천사는 다음 링크에서 더 자세히 볼 수 있습니다.

A history of NVidia Stream Multiprocessor
nVidia GPU 아키텍처 변천사 (상편) - 골수공돌이의 탐구실
얼마전 2017년 GTC(GPU Technology Conference)에서 새로운 GPU 아키텍처인 Volta가 공개된 김에, 처음 unified shader가 탑재됐던 Tesla 시절부터 지금의 Volta까지 nVidia의 GPU 아키텍처가 어떻게 변해 왔는지 정리해 보려 합니다. 아키텍처 이름은 유명한 수학자나 과학자의 이름을 따와...

이번 GTC 2022에서 공개된 H100과 직전 GPU인 A100과 비교해보겠습니다.

  1. World's Most Advanced Chip: 8-bit floating point 연산 방식을 도입해 6배의 PFLOPs 달성
  2. Transformer Engine: Transformer Engine 개발을 통해 9배 속도 개선
  3. 2nd Generation Multi-Instance GPU: H100을 최대 7개의 인스턴스로 파티셔닝 가능, 인스턴스별 Isolation, virtualization 지원
  4. Confidential Computing: GPU Confidential Computing 을 통해 GPU의 데이터 및 모델을 안전하게 보호
  5. 4th Generation NVLINK: GPU 간 bandwidth 2배 증가
  6. DPX Instructions: Dynamic Programming을 통해 초다항시간문제 해결 시간 40배 단축

NVIDIA EOS

EOS는 NVIDIA에서 처음으로 구축하고 있는 Hopper AI 공장입니다. 4608개의 H100을 포함하며 이들 간의 통신 속도 또한 훨씬 개선되었습니다. 미국에서 제일 빠른 슈퍼컴퓨터인 Summit보다 1.4배, 세계에서 가장 큰 슈퍼컴퓨터인 Fugaku보다 4배 빠른 속도를 기록하였습니다.

H100 CNX

Hopper의 초고속 컴퓨팅을 유의미하게 사용하려면 데이터 처리 속도가 그만큼 빨라야 합니다. 기존 서버에서는 데이터 이동이 CPU와 메모리에 부하를 주었습니다. 이에 대한 해결책으로 네트워크를 CPU가 아닌 GPU에 직접 연결하는 것입니다.

H100과 CX7 (networking module)을 직접 연결하여 대역폭 병목 현상을 방지하여 CPU, RAM 메모리를 추가 확보할 수 있습니다.

NVIDIA CPU: Grace

Grace는 AI 공장에 제일 이상적인 CPU가 될 것입니다. CPU 2개가 NVLink를 통해 연결됩니다. 1T/s bandwidth 는 기존보다 3-4배 발전되었습니다.

nvlink를 통해 nvidia의 칩들을 모두 엄청난 속도로 연결할 것입니다.

NVIDIA AI

NVIDIA AI: a suite of libraries that span the entire workflow - from data processing and ETL feature engineering, graph, classical ML, deep learning model training to large-scale inference.
  • Supercomputer-scale transformer models: 530B의 파라미터를 가진 메가트론
  • Applied distributed reinforcement learning: AI가 칩을 만듬
  • PHYSICS-ML: 물리학과 양자 물리학 학습
  • Generative models: 가상세계 구축 + 6G
  • NeRF: 2D => 3D, 디지털 트윈 생성

TRITON: Open-Source Hyperscale Inference Server

현재 전세계에서 검색, 광고, 쇼핑, 뉴스, 음악, 동영상, 소셜 등 매일 수천억 건의 web interaction이 일어나고 있고 이로부터 수조 번의 머신러닝 모델 inference 가 발생합니다. NVIDIA TRITON은 오픈 소스 하이퍼스케일 모델 추론 서버로, 모든 세대의 GPU, 모든 CPU에서 사용 가능합니다.

Pytorch, Tensorflow, XGBoost 등 모든 프레임워크를 지원하며 CNN, RNN< Transformer, GNN 등 모든 모델도 지원합니다. 실시간, 오프라인 배치, 스트리밍 등 모든 쿼리 유형에 대해서도 지원하며 클라우드, 온프레미스, 엣지, 임베디드 등 모든 위치에서도 실행 가능합니다.

RIVA: SDK for Speech AI

7개 언어에 대해 음성 인식, 음성 합성 기능을 지원하며 직접 튜닝할 수도 있습니다.

Maxine: SDK for AI Video Conferencing

커뮤니케이션을 혁신할 최첨단 AI 알고리즘 Maxine입니다. 화상회의는 이미지와 소리를 인코딩하여 전송한 다음 디코딩합니다.

컴퓨터 비전은 이미지 인코딩을 대체하고, 컴퓨터 그래픽은 이미지 디코딩을 대체합니다. 음성 인식은 오디오 인코딩을 대체하고, 음성 합성은 이미지 디코딩을 대체합니다.

원격 근무는 앞으로 지속될 것이며 가상 실시간 상호 작용에 대한 중요성이 점점 커지고 있습니다. 다음은 Maxine 데모입니다.

Merlin: AI Framework for Hyperscale Recommender Systems

Merlin을 사용하여 최첨단 딥러닝 추천 시스템을 빠르게 구축, 배포할 수 있습니다.

기타.

  1. RAPIDS: Open-Source Libraries for GPU-Accelerated Data Science
  2. cuOPT: AI-Accelerated Solvers for Route Optimization
  3. DGL Container: Accelerates GNN Workflows
  4. MORPHEUS: AI Framework for Cybersecurity
  5. cuQUANTUM: SDK for Accelerating Quantum Circuit Simulations
  6. AERIAL: SDK for CUDA-Accelrated Software-Defined 5G Audio
  7. SIONNA: SDK for 6G Link-Level Simulations
  8. Modulus: AI Framework for Physics ML
  9. MONAI: AI Framework for Medical Imaging
  10. FLARE: SDK for Federated Learning

NVIDIA Omniverse

NVIDIA Omniverse 는 크게 4가지 섹션으로 이뤄집니다.

  1. Ground Truth Data 수집
  2. AI 모델 학습
  3. Digital Twin에서 시뮬레이션
  4. REAL physical world 에 적용

NVIDIA DRIVE

NVIDIA DRIVE에서는 아래처럼 적용할 수 있습니다.

  1. DEEPMAP을 통해 ground truth data 수집
  2. DGX에서 NVIDIA AI 학습
  3. OVX에 돌아가는 옴니버스(DRIVE Sim)에서 시뮬레이션
  4. 차(ORIN)에서 구동되는 애플리케이션(DRIVE AV)으로 실제 세상에 적용

NVIDIA Robotics

  1. Ground Truth Data 수집을 위한 NVIDIA DEEPMAP
  2. 모델 훈련을 위한 NVIDIA AI
  3. 디지털 트윈에서의 시뮬레이션을 위한 Isaac Sim
  4. 실제 세상에 적용되는 Isaac

Summary

NVIDIA는 하드웨어, 시스템 소프트웨어, 플랫폼, 애플리케이션 총 4가지 Layer 개발을 통해 다양한 직군의 개발자들이 그에 맞는 모듈들을 쉽게 사용할 수 있게 하고 있습니다. 하드웨어는 현재 전세계 1등이며, HPC, AI, Omniverse 라는 크게 3가지 플랫폼을 구축하여 타 회사들과는 확실한 차별점을 제공합니다. NVIDIA의 미래, NVIDIA가 바꿀 우리 지구의 미래가 기대됩니다.