Самый мощный в мире чип от NVIDIA — Blackwell B200

NVIDIA представила не только самый мощный чип в мире — Blackwell B200, но также открыла путь к созданию гигантских нейросетей.

На конференции GTC 2024 компания NVIDIA представила следующее поколение ИИ-ускорителей на графических процессорах с архитектурой Blackwell. Согласно заявлению производителя, новые ИИ-ускорители откроют возможность создания еще более масштабных нейронных сетей, включая работу с огромными языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз более энергоэффективными и экономичными по сравнению с Hopper.

Архитектура GPU Blackwell представляет собой технологический прорыв, который обещает значительно ускорить вычисления в различных областях, таких как обработка данных, инженерное моделирование, автоматизация проектирования электроники, компьютерное проектирование лекарств, квантовые вычисления и генеративный ИИ. Это стало возможным благодаря инновационным технологиям, включенным в эту архитектуру и названным в честь американского математика Дэвида Блэквелла.

Использованию графических процессоров Blackwell в генеративном искусственном интеллекте глава Nvidia уделил особое место, он называл эту технологию определяющей для нашего времени и двигателем новой промышленной революции.

Новый графический процессор Nvidia B200 обещает революцию в области вычислений, обладая самой высокой производительностью в мире. Его спецификации включают в себя высокую производительность в вычислениях FP4 и FP8, что делает его идеальным для использования в суперкомпьютерах и других крупных вычислительных системах.

Чипы нового GPU произведены по специальной версии 4-нм техпроцесса TSMC 4NP и объединены 2,5D-упаковкой CoWoS-L, что обеспечивает им высокую производительность и эффективность. Это первый GPU компании Nvidia с чиплетной компоновкой. Чипы соединены шиной NV-HBI с пропускной способностью 10 Тбайт/с и работают как единый GPU. Всего новинка насчитывает 208 млрд транзисторов.

Вокруг кристаллов GPU расположены восемь стеков памяти HBM3E общим объемом в 192 Гбайт. Эта конфигурация обеспечивает пропускную способность в 8 Тбайт/с. Новый GPU Blackwell получил поддержку интерфейса NVLink пятого поколения, который обеспечивает пропускную способность до 1,8 Тбайт/с в обоих направлениях. С использованием коммутатора NVSwitch 7.2T в одну связку можно объединить до 576 GPU.

Новые тензорные ядра и второе поколение механизма Transformer Engine стали главными источниками более высокой производительности B200. Последний научился более тонко подбирать необходимую точность вычислений для тех или иных задач, что влияет и на скорость обучения и работы нейросетей, и на максимальный объём поддерживаемых LLM. Теперь Nvidia предлагает тренировку ИИ в формате FP8, а для запуска обученных нейросетей хватит и FP4. Однако стоит отметить, что Blackwell поддерживает работу с самыми разными форматами, включая FP4, FP6, FP8, INT8, BF16, FP16, TF32 и FP64, и во всех случаях, кроме последнего, есть поддержка разреженных вычислений.

Новым флагманским ускорителем на новой архитектуре станет Nvidia Grace Blackwell Superchip, в котором сочетается пара графических процессоров B200 и центральный Arm-процессор Nvidia Grace с 72 ядрами Neoverse V2. Этот ускоритель, занимающий половину серверной стойки, имеет TDP до 2,7 кВт. В операциях FP4 он достигает производительности до 40 Пфлопс, а в операциях FP8/FP6/INT8 новый GB200 способен обеспечить 10 Пфлопс.

Также была представлена система GB200 NVL72 от Nvidia. Это серверный стойка, включающая 36 Grace Blackwell Superchip и два NVSwitch коммутатора емкостью 7.2Т. Таким образом, система состоит из 72 графических процессоров B200 Blackwell и 36 процессоров Grace, которые соединены NVLink пятого поколения. Объем памяти HBM3E составляет 13,5 Тбайт с общей пропускной способностью до 576 Тбайт/с, а объем оперативной памяти составляет 30 Тбайт.

Платформа GB200 NVL72, обладающая производительностью в 1,4 эксафлопс (FP4) и 720 Пфлопс (FP8), будет использоваться в качестве строительного блока для суперкомпьютера Nvidia DGX SuperPOD.
Новые серверные системы HGX B100, HGX B200 и DGX B200 были представлены компанией Nvidia. Все они оборудованы по восемь ускорителей Blackwell, соединенных по технологии NVLink 5. Системы HGX B100 и HGX B200 не имеют своего собственного процессора, их основное различие заключается в энергопотреблении и, следовательно, в производительности. Модель HGX B100 имеет лимит по TDP в 700 Вт и способна достигать производительности до 112 и 56 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно. В то время как модель HGX B200 имеет TDP в 1000 Вт и обеспечивает до 144 и 72 Пфлопс в операциях FP4 и FP8/FP6/INT8 соответственно.

В отличие от HGX B200, DGX B200 представляет собой готовую систему, включающую в себя пару центральных процессоров Intel Xeon Emerald Rapids. По заявлению компании Nvidia, DGX B200 способен обеспечить до 15-кратного увеличения скорости выполнения задач по запуску обученных "триллионных" моделей по сравнению с предыдущим поколением.

Компания Nvidia предлагает объединять от 10 тыс. до 100 тыс. ускорителей GB200 в рамках одного дата-центра в кластеры с помощью сетевых интерфейсов Nvidia Quantum-X800 InfiniBand и Spectrum-X800 Ethernet, чтобы создать наиболее масштабные ИИ-системы. Эти интерфейсы были анонсированы сегодня и обеспечивают передовые сетевые возможности со скоростью до 800 Гбит/с.

Многие производители, включая Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn и ZT Systems, планируют представить свои системы на базе Nvidia B200. Кроме того, Nvidia GB200 будет использоваться в платформе Nvidia DGX Cloud, и позже в этом году решения на этом суперчипе станут доступны у крупнейших облачных провайдеров, включая AWS, Google Cloud и Oracle Cloud.

19.03.2024