Цифровой гигантизм: Что такое суперЭВМ и зачем их владельцам собственные АЭС

Гигантские пожиратели энергии

В октябре этого года Илон Маск представил проект Colossus – один из самых больших в мире суперкомпьютеров, который будет заниматься комплексным обучением нейросети. Многие подобные машины сейчас используются для одновременной работы с, по сути, множеством других компьютеров. Общественность потрясло, что компьютер был создан всего за 4 месяца, при этом в его основу легли более 100 000 дорогостоящих и сложных в использовании процессоров. Подобные масштабы немного пугают: особенно если вы технопессимист или борец за экологию в США. Причём тут, казалось бы, экология?

В последний год американские компании начали получать разрешения на строительство собственных АЭС для обслуживания суперкомпьютеров. При этом одна АЭС питает одну ЭВМ: только представьте, что вся энергия, которой хватает для жизни города средних размеров, уходит на поддержание работы одной машины. Очень большой машины. Попробуем разобраться, что за задачи решают такие технологии и как они устроены.

Зачем придумали суперкомпьютеры

Термин «суперЭВМ» или «суперкомпьютер» появился в середине прошлого века и первоначально обозначал вычислительные машины, производительность которых многократно превосходила обычные компьютеры. Под производительностью понимается скорость выполнения арифметических операций с числами в конкретном формате представления. Условно говоря, это скорость работы компьютера при выполнении простой линейной операции.

Фотоколлаж по мотивам представлений о том, как Маск презентует суперкомпьютер

Сейчас суперЭВМ – это сложные специализированные системы, которые предоставляют большое количество вычислительного оборудования для эффективного решения одной задачи математического моделирования в научных и инженерных приложениях. Математическая модель представляет сложный процесс или механизм в формате компьютерного кода. Чем дольше и комплекснее процесс, тем более сложная модель понадобится. Написать код для такой на обычном компьютере нельзя, поэтому используют суперЭВМ. Они организуют высокопроизводительные вычисления (или HPC – high performance computing), которые существенно отличаются от других вычислений на крупных массивах информации: облачных и распределенных.

Как еще работают с большими данными

Мы храним данные в сети, а значит пользуемся облачными платформами. Среди самых крупных Microsoft Azure, Amazon Web Services, Google Cloud Platform, и все они состоят из миллионов вычислительных серверов, расположенных в сети ЦОД (центров обработки данных). Их общие вычислительные мощности превосходят возможности любого суперкомпьютера. Однако этот гигантский ресурс облака сложно собрать для решения одной супер-задачи: например, для непрерывного прогнозирования погоды во всём мире. Облако помогает выполнять миллионы относительно небольших и независимых задач.

Облачные сервисы решают сразу множество рутинных задач

В свою очередь распределенные вычисления могут привлечь для решения одной задачи много оборудования, которое слабо взаимодействует друг с другом. Если облачные сервисы можно сравнить с огромным шлангом, из которого мы издалека поливаем газон, то распределенные вычисления занимаются поливкой двухметрового фикуса из нескольких десятков лабораторных мензурок. Как правило такие процессы реализуются на основе гигантской сети домашних компьютеров и ноутбуков энтузиастов, например, на основе платформы BOINC (Berkeley Open Infrastructure for Network Computing). На компьютере участника такой сети в фоновом режиме и с минимальный приоритетом выполняется вычислительный процесс, который с определенной периодичностью отправляет через Интернет результаты своих вычислений и получает следующее задание для счета.

Нужно больше эффективности!

Высокопроизводительные вычисления, для которых используются суперкомпьютеры, ориентированы на параллельное и эффективное использование интенсивно взаимодействующего оборудования для решения одной супер-задачи. Любая суперЭВМ состоит из множества однотипных вычислительных узлов, которые соединены между собой специализированной коммуникационной системой. Эта система представляет собой высокоскоростную компьютерную сеть, имеющую очень большую пропускную способность и низкую задержку данных (к таким относятся Infiniband, Intel Omni-Path или решения на основе Gigabit Ethernet, такие, как Cray Slingshot). Перечисленными системами пользуются для создания суперЭВМ по всему миру, однако большие национальные проекты часто разрабатывают собственные коммуникационные системы: например интерконнект Tofu японского суперкомпьютера Fugaku.

А вот так мы иногда представляем себе машинное обучение

Надо заметить, что арифметика классических суперкомпьютеров сложнее, чем арифметика машинного обучения. СуперЭВМ пользуются числами с плавающей запятой, записанными в формате двойной точности и занимающими 64 бита в памяти процессора. Для машинного обучения и задач искусственного интеллекта такая точность избыточна, здесь хватает и от 8 до 32 бит в памяти. Как правило, заказчиками суперЭВМ выступают различные правительственные организации, академические институты или высшие учебные заведения.

При этом не стоит думать, что производительность всех суперЭВМ одинаковая. Для их ранжирования используют специальные тестовые приложения, из которых самыми распространёнными является тест HPL и тест HPCG. На основе результатов производительности теста HPL дважды в год (в июне и в ноябре) формируется список top500 – 500 самых высокопроизводительных суперЭВМ в мире. Если быть точнее, то список формируется по результатам теста, которые были присланы составителям этого списка, поэтому засекреченные суперкомпьютеры в него не попадают.

Насколько всё быстро?

Первые три места в списке top500 за ноябрь 2024 года занимают суперЭВМ производительностью более одного эксафлопса – это 1018 арифметических операций с числами в формате fp64 в секунду. Все три системы разработаны в рамках американского государственного проекта эксафлопсных вычислений (ECP), который проводился в 2016-2024 годах. Барьер эксафлопсной производительности впервые преодолела в июне 2022 года система Frontier. Она состоит из 9248 вычислительных узлов, которые содержат 8,7 млн. ядер суммарной пиковой производительностью в 1,7 Эфлопс. Это 1,7 квинтиллиона операций в секунду.

У вас тоже фотография плэйстейшн-3 вызывает ностальгию?

Предыдущий барьер производительности был преодолен в 2008 году суперЭВМ, которая была построена на основе процессоров PowerXCell 8i, подобных процессорам из приставок PlayStation 3. За 14 лет (с 2008 по 2022 год) производительность суперЭВМ выросла более чем в 1000 раз, при этом их энергопотребление выросло в 9,2 раз. Несмотря на специализированный дизайн и государственный заказ, создание супермощных систем сейчас во многом возможно за счет развития электроники для игровой индустрии – игровых приставок и графических ускорителей. Так что можно сказать, что мы, играя в компьютерные игры, влияем на точность прогноза погоды и ответов ChatGPT.