Новости про GPGPU и суперкомпьютеры

NVIDIA скоро изготовит мультичиповый GPU Hopper

В Сети появились слухи, что в скором времени NVIDIA изготовит новый GPU под именем Hopper. Тут важно отметить, что это не игровое решение, и вы не увидите карту GeForce RTX 4080 Ti на его основе. Тем не менее, это инновационное решение.

В Twitter, в аккаунте Greymon55, появилось шифрованное сообщение с аббревиатурой «NHWTOS», которая через пару часов была расшифрована. Она гласит «NVIDIA's Hopper Will Tape Out Soon», то есть «NVIDIA Hopper скоро будет отпечатан».

Эта новая архитектура примечательна тем, что в ней используется мультичиповый модуль, вместо традиционного монолитного. И хотя этот процессор предназначен для суперкомпьютеров, нам он интересен по причине того, что его опыт может быть применён на поколении Lovelace или даже обновлённой версии Ampere, который планируются в 2024 и 2022 годах соответственно.

Переход от монолитной структуры GPU к мультичиповой

Мультичиповая технология в Hopper аналогична той, что использует AMD в своих центральных процессорах Zen и графических процессорах RDNA. Она изготавливает свои процессоры на TSMC, и новый чип NVIDIA также должен быть изготовлен на TSMC по 5 нм нормам. Ожидается, что чиплет из двух ядер GPU предложит в сумме 288 потоковых мультипроцессоров, что в 2,6 раза больше, чем у GPU NVIDIA A100. Кроме того, Hopper будет более энергоэффективным, чем Ampere. Считается, что его энергетическая эффективность вырастет в 3 раза.

Как обычно, к подобным слухам следует относиться с большой осторожностью и скептицизмом. Тем более, что они получены из неизвестных источников.

NVIDIA предсказывает общедоступность суперкомпьютеров

В ходе недавней конференции в Остине, штат Техас, исполнительный директор NVIDIA Дзень-Хсунь Хуан рассказал, что видит широкие возможности для распространения суперкомпьютеров во многих отраслях промышленности.

Хуан пояснил, что суперкомпьютерные технологии хорошо продвигаются за пределы традиционных суперкомпьютерных систем, и технологии GPU станут частью будущих технологий, таких как автономные транспортные средства и персональные роботизированные помощники. Компания NVIDIA уже активно работает в этих отраслях, предложив автомобильный компьютер NVIDIA Drive PX и модуль машинного обучения Jetson TX1.

За последние пару лет графические процессоры нашли своё применение во многих суперкомпьютерах. По словам NVIDIA, использование GPU акселераторов в списке top500 суперкомпьютеров растёт ежегодно на 50%, а графический процессор Tesla использован в 23 из 24 новых суперкомпьютерах с GPGPU ускорением.

В будущем машинное обучение увеличит спрос на GPU ещё больше. Машинное обучение является «первоочередным применением высокопроизводительных вычислений для потребителей» — отметил Хуан. «Технология позволит технологии стать автономной в сложности реального мира и станет инструментом для производства автономных транспортных средств и машин, подобных персональным роботам-помощникам».

NVIDIA представила ускоритель Tesla K40

В ходе конференции SC13 компания NVIDIA представила самый производительный в мире видеоускоритель Tesla K40, сделав это вслед за AMD Firepro S10000 12 GB.

Как и положено ускорителям Tesla, он предназначен для суперкомпьютеров и он на целых 40% превышает по производительности Tesla K20X. Кроме того, этот ускоритель в 10 раз быстрее самого быстрого на сегодня CPU. Таким образом, ускоритель Firepro S10000 12 GB пробыл на вершине всего несколько дней.

«GPU ускорители стали мейнстрим продуктом в высокопроизводительных ПК и суперкомпьютерах, позволяя инженерам и учёным создавать новшества и делать научные открытия», — заявил Сумит Гупта, главный менеджер NVIDIA по продуктам ускоренных вычислений.

Что касается аппаратной части, то K40 получил 2880 ядер CUDA с базовой частотой 745 МГц и до 875 МГц в режиме Boost, в то время как прошлое поколение, K20X, имело 2688 ядер частотой 732 МГц. В новой плате также используется более быстрая память GDDR5 частотой 3 ГГц, объём которой также как и противоборствующего лагеря составляет 12 ГБ.

В пресс-релизе компания указала, что  «ускоритель Tesla K40 обходит остальные ускорители по двум главным показателям вычислительной производительности: 4,29 терафлопса с обычной точностью и 1,43 терафлопса пиковой производительности с двойной точностью». Надо сказать, что это не совсем правда, поскольку AMD удалось сделать свой ускоритель с производительностью в 1,48 терафлопса при двойной точности вычислений.

Несмотря на недавний анонс, у NVIDIA уже есть первый клиент на новые платы. Им стал Техасский современный вычислительный центр в Остине, который планирует запустить новую интерактивную систему удалённой визуализации и анализа данных, под именем Maverick, уже в январе будущего года.

CPU против GPU: новый раунд

Плюс прогноз применимости GPGPU для суперкомпьютеров.

В этом году IBM публиковала два исследования, в которых сравнивалась производительность CPU и GPU в математических задачах. В первом случае центральный процессор IBM Power 7 опередил GeForce GTX 285, причём двухпроцессорная система на базе Intel Xeon показала лишь чуть меньший результат, во втором испытании модуль NVIDIA Tesla 2050 опередил всех соперников, но разрыв в производительности составил чуть более двухкратного для Power 7 и не дотянул до четырёхкратного над Xeon. И вот появилось новое исследование, от университетов Оксфорда и Ворвика, Великобритания, в котором системам на базе Xeon были противопоставлены модули Tesla разных поколений и пара «бытовых» видеокарт.

Хотя для исполнения на CUDA использованный тест NAS LU пришлось портировать с Fortran на C, результат представляет немалый интерес. Всего один четырёхъядерный процессор Xeon X5550, работающий на частоте 2,66 ГГц, смог показать лучший результат, чем GeForce 9800 GT с теоретической производительностью 500 GFLOPS. GeForce 8400 GS из-за ограниченного буфера памяти (256 Мб) смогла выполнить лишь один этап из трёх и показала ужасную производительность. Модули Tesla оправдали свою репутацию, но отрыв в производительности не превышал 10-кратного. Любопытно, что включение режима защиты памяти ECC на Tesla 2050 стоило ей 20 % производительности, в том числе из-за потери 16 % объема видеопамяти на контрольные суммы.

Британские учёные не могли хотя бы частично не подтвердить свою репутацию. На основе полученных данных они попытались спрогнозировать производительность суперкомпьютерных систем на базе Tesla, сравнив их предсказанную производительность с хорошо себя зарекомендовавшими системами BlueGene /P от IBM.

Согласно предсказанию, традиционный подход к построению суперкомпьютеров выиграет по соотношению фактической производительности на Ватт, и в конечном итоге — по быстродействию вообще. Впрочем, GPU уже сделали заявку на лидерство среди суперкомпьютеров, посмотрим, что сможет на неё ответить та же IBM.

Глава NVIDIA поделился видением будущего GPGPU-технологий

CUDA останется основным API, поддерживаемым NVIDIA.

Глава NVIDIA Jen-Hsun Huang в интервью британскому отделению издания ZDNet ответил на вопросы о будущем GPGPU-технологий. Мы приводим выдержку высказанных им суждений:

  • NVIDIA активно поддерживает открытый стандарт OpenCL, тем более что Khronos Group в настоящее время возглавляет сотрудник компании. NVIDIA первой реализовала поддержку OpenCL, причём она всё еще считается лучшей в отрасли, и будет поддерживать OpenCL и дальше.
  • Технологии меняются очень быстро, производительность увеличивается четырёхкратно каждые два года, новые функции внедряются постоянно. В силу этого NVIDIA концентрируется на CUDA, не желая немедленно «выкатывать» новый общий стандарт. Тем более, что OpenCL такого внимания и не требует — там есть множество людей, в том числе из IBM, AMD, Intel, и NVIDIA не нужно тащить всё в одиночку.
  • CUDA получил большее распространение, чем OpenCL, в силу большей истории и инвестиций в разработку, большего числа работающих с ним людей, большего качества инструментов разработки, компилятора, надёжности рабочей среды.
  • NVIDIA не пытается каким-то способом полностью заменить CPU или нарушить их работу. Операционные системы и офисные приложения будут продолжать работать на CPU — но будет возможно прибегнуть к силе GPU для того, чтобы «проломить» определённые задачи.
  • Будущее за гетерогенной средой, в которой встретятся нарастившие мощь векторной обработки данных CPU и GPU с параллельной обработкой данных, научившиеся решать более сложные типы задач. В такой среде все приложения будут работать невероятно быстро.
  • Сейчас ситуация с приложениями такая, что они не работают, не работают, а потом раз — и работают очень быстро. Технологии вроде виртуальной памяти и синхронизации данных в памяти облегчат программирование. В целом будет лучше, если приложения будут работать сразу, пусть и лишь в три раза быстрее. Затем можно будет заниматься оптимизацией.
  • Сейчас графические процессоры лучше всего работают с одним приложением, так устроен их конвейер, следствие stateful-подхода. К примеру, одна большая программа исполняется на многих GPU. В будущем будет иная ситуация: множество приложений, использующих один GPU. NVIDIA работает над тем, чтобы обеспечить возможность использования обоих подходов.
  • В будущей архитектуре сервер с одним модулем Tesla сможет одновременно предоставить игровой ускоритель для сеанса геймера, Quadro-ускоритель для сеанса дизайнера автомобиля и GPGPU-ускоритель для сеанса высокопроизводительных вычислений. Можно будет одновременно заниматься вычислениями и визуализацией в отдельном «облаке», получая высококачественную картинку на экран компьютера, планшетного ПК или телефона.
  • Ключ к созданию подобных архитектур — отказ от копирования данных туда-сюда. NVIDIA совместно с InfiniBand разрабатывает решение, которое позволит избежать постоянного копирования данных из системной памяти в видеопамять и обратно. Это позволит частично снять остроту проблемы полосы пропускания каналов связи, хотя всё равно всегда будут требоваться как можно более быстрые методы передачи данных.

Будем надеяться, что в погоне за раскрывающими перспективами облачных сред и распределённых вычислений компания не забудет совсем про сегмент, собственно, видеокарт для конечных ПК.

Серверы Dell с готовностью к GPGPU и виртуализации

Модульный сервер позволяет установить до 16 GPU-карт PCI-Express.

Компания Dell для своих новых серверов линейки PowerEdge C Series предусматривает специальный блок расширения PowerEdge C410x, представляющий собой платформу для установки карт с интерфейсом PCI-Express x16.

Данный модуль высотой 3U позволяет установить 16 GPU-карт (10 спереди и 6 сзади) с TDP до 225 Вт каждая, и рассчитан прежде всего на установку GPGPU модулей NVIDIA Tesla M2050 с 448 ядрами CUDA архитектуры Fermi и тремя или шестью гигабайтами ECC GDDR-5 памяти.

Питание обеспечивают 4 блока мощностью 1400 Вт каждый, за охлаждение отвечают восемь 92-мм вентиляторов. Блоки питания и вентиляторы поддерживают отказоустойчивость и «горячую» замену. Модули карт поддерживают добавление на ходу, но не замену.

Совокупная вычислительная мощность платформы — более 16 000 GFLOPS и может быть разделена между 8 серверами PowerEdge C Series, подключаемыми с помощью внешних соединений PCI-Express I-PASS к специальным интерфейсным картам NVIDIA HIC. Программная поддержка решения пока реализована лишь в Red Hat Enterprise Linux.

Dell уже поставила подобную систему как часть суперкомпьютера Lincoln для Национального суперкомпьютерного центра США, с вычислительной производительностью в 47 TFLOPS. Но подобный продукт, без сомнения, найдёт спрос и у корпоративных потребителей в области решений для виртуализации, поскольку и Microsoft, и VmWare уже объявили, что следующее поколение их продуктов будет поддерживать виртуализацию графического процессора, что позволит исполнять «тяжёлые» графические приложения в виртуальных машинах. Причём предварительная версия технологии Microsoft RemoteFX уже доступна в открытом для бета-тестирования Windows Server 2008 R2 SP1 Release Candidate.

Cray запускает в производство суперкомпьютер с GPU NVIDIA Tesla

Вычислительные модули NVIDIA Tesla обеспечат 17 000 GFLOPS.

Известный изготовитель высокопроизводительных компьютеров Cray Ink. объявила о запуске новой линейки вычислительных кластеров CX1000. Наибольший интерес в новой линейке представляет модель CX1000-G, предлагающая использование GPGPU возможностей современных графических процессоров NVIDIA. CX1000-G допускает установку до 9 блоков, каждый из которых содержит два процессора Intel Xeon 5600, до 48 Гб оперативной памяти и два процессора NVIDIA Tesla M1060. С учётом производительности одного модуля Tesla в 933 GFLOPS, общая производительность кластера составит почти 17000 GFLOPS даже без учёта вычислительных возможностей центральных процессоров Intel.

Надо отметить, что графические процессоры уже прочно «прописались» в мире суперкомпьютеров. В прошлом году в список самых производительных компьютеров TOP500 ворвался китайский компьютер Tianhe-1. Производительность петафлопного уровня и пятое место в списке тогда обеспечили 2560 видеокарт AMD Radeon HD 4870×2.

В университете Антверпена создали домашний суперкомпьютер FASTRA II

Исследователи из лаборатории Vision Антверпенского университета в Бельгии в прошлом году создали суперкомпьютер FASTRA, оснащённый четырьмя видеокартами NVIDIA GeForce, но теперь они сделали большой шаг вперёд.

Благодаря использованию материнской платы от Asus с семью слотами PCI-Express, специальных гибких шлейфов PCIe, а также модификации BIOS это платы, им удалось успешно установить в систему шесть двухчиповых видеокарт NVIDIA GTX295, а также одну одночиповую карту GTX 275. Этот компьютер он назвали FASTRA II.

Как и ранее, главное преимущество такого подхода — огромная вычислительная мощь суперкомпьютера за относительно небольшую цену — 12 терафлопс  менее чем за 6000 €.

На видеороликах можно увидеть эту систему в действии.

FASTRA II official movie
FASTRA II thermal footage: heating up