Новости про GPGPU, Tesla и суперкомпьютеры

NVIDIA представила ускоритель Tesla K40

В ходе конференции SC13 компания NVIDIA представила самый производительный в мире видеоускоритель Tesla K40, сделав это вслед за AMD Firepro S10000 12 GB.

Как и положено ускорителям Tesla, он предназначен для суперкомпьютеров и он на целых 40% превышает по производительности Tesla K20X. Кроме того, этот ускоритель в 10 раз быстрее самого быстрого на сегодня CPU. Таким образом, ускоритель Firepro S10000 12 GB пробыл на вершине всего несколько дней.

«GPU ускорители стали мейнстрим продуктом в высокопроизводительных ПК и суперкомпьютерах, позволяя инженерам и учёным создавать новшества и делать научные открытия», — заявил Сумит Гупта, главный менеджер NVIDIA по продуктам ускоренных вычислений.

Что касается аппаратной части, то K40 получил 2880 ядер CUDA с базовой частотой 745 МГц и до 875 МГц в режиме Boost, в то время как прошлое поколение, K20X, имело 2688 ядер частотой 732 МГц. В новой плате также используется более быстрая память GDDR5 частотой 3 ГГц, объём которой также как и противоборствующего лагеря составляет 12 ГБ.

В пресс-релизе компания указала, что  «ускоритель Tesla K40 обходит остальные ускорители по двум главным показателям вычислительной производительности: 4,29 терафлопса с обычной точностью и 1,43 терафлопса пиковой производительности с двойной точностью». Надо сказать, что это не совсем правда, поскольку AMD удалось сделать свой ускоритель с производительностью в 1,48 терафлопса при двойной точности вычислений.

Несмотря на недавний анонс, у NVIDIA уже есть первый клиент на новые платы. Им стал Техасский современный вычислительный центр в Остине, который планирует запустить новую интерактивную систему удалённой визуализации и анализа данных, под именем Maverick, уже в январе будущего года.

CPU против GPU: новый раунд

Плюс прогноз применимости GPGPU для суперкомпьютеров.

В этом году IBM публиковала два исследования, в которых сравнивалась производительность CPU и GPU в математических задачах. В первом случае центральный процессор IBM Power 7 опередил GeForce GTX 285, причём двухпроцессорная система на базе Intel Xeon показала лишь чуть меньший результат, во втором испытании модуль NVIDIA Tesla 2050 опередил всех соперников, но разрыв в производительности составил чуть более двухкратного для Power 7 и не дотянул до четырёхкратного над Xeon. И вот появилось новое исследование, от университетов Оксфорда и Ворвика, Великобритания, в котором системам на базе Xeon были противопоставлены модули Tesla разных поколений и пара «бытовых» видеокарт.

Хотя для исполнения на CUDA использованный тест NAS LU пришлось портировать с Fortran на C, результат представляет немалый интерес. Всего один четырёхъядерный процессор Xeon X5550, работающий на частоте 2,66 ГГц, смог показать лучший результат, чем GeForce 9800 GT с теоретической производительностью 500 GFLOPS. GeForce 8400 GS из-за ограниченного буфера памяти (256 Мб) смогла выполнить лишь один этап из трёх и показала ужасную производительность. Модули Tesla оправдали свою репутацию, но отрыв в производительности не превышал 10-кратного. Любопытно, что включение режима защиты памяти ECC на Tesla 2050 стоило ей 20 % производительности, в том числе из-за потери 16 % объема видеопамяти на контрольные суммы.

Британские учёные не могли хотя бы частично не подтвердить свою репутацию. На основе полученных данных они попытались спрогнозировать производительность суперкомпьютерных систем на базе Tesla, сравнив их предсказанную производительность с хорошо себя зарекомендовавшими системами BlueGene /P от IBM.

Согласно предсказанию, традиционный подход к построению суперкомпьютеров выиграет по соотношению фактической производительности на Ватт, и в конечном итоге — по быстродействию вообще. Впрочем, GPU уже сделали заявку на лидерство среди суперкомпьютеров, посмотрим, что сможет на неё ответить та же IBM.

Серверы Dell с готовностью к GPGPU и виртуализации

Модульный сервер позволяет установить до 16 GPU-карт PCI-Express.

Компания Dell для своих новых серверов линейки PowerEdge C Series предусматривает специальный блок расширения PowerEdge C410x, представляющий собой платформу для установки карт с интерфейсом PCI-Express x16.

Данный модуль высотой 3U позволяет установить 16 GPU-карт (10 спереди и 6 сзади) с TDP до 225 Вт каждая, и рассчитан прежде всего на установку GPGPU модулей NVIDIA Tesla M2050 с 448 ядрами CUDA архитектуры Fermi и тремя или шестью гигабайтами ECC GDDR-5 памяти.

Питание обеспечивают 4 блока мощностью 1400 Вт каждый, за охлаждение отвечают восемь 92-мм вентиляторов. Блоки питания и вентиляторы поддерживают отказоустойчивость и «горячую» замену. Модули карт поддерживают добавление на ходу, но не замену.

Совокупная вычислительная мощность платформы — более 16 000 GFLOPS и может быть разделена между 8 серверами PowerEdge C Series, подключаемыми с помощью внешних соединений PCI-Express I-PASS к специальным интерфейсным картам NVIDIA HIC. Программная поддержка решения пока реализована лишь в Red Hat Enterprise Linux.

Dell уже поставила подобную систему как часть суперкомпьютера Lincoln для Национального суперкомпьютерного центра США, с вычислительной производительностью в 47 TFLOPS. Но подобный продукт, без сомнения, найдёт спрос и у корпоративных потребителей в области решений для виртуализации, поскольку и Microsoft, и VmWare уже объявили, что следующее поколение их продуктов будет поддерживать виртуализацию графического процессора, что позволит исполнять «тяжёлые» графические приложения в виртуальных машинах. Причём предварительная версия технологии Microsoft RemoteFX уже доступна в открытом для бета-тестирования Windows Server 2008 R2 SP1 Release Candidate.

Cray запускает в производство суперкомпьютер с GPU NVIDIA Tesla

Вычислительные модули NVIDIA Tesla обеспечат 17 000 GFLOPS.

Известный изготовитель высокопроизводительных компьютеров Cray Ink. объявила о запуске новой линейки вычислительных кластеров CX1000. Наибольший интерес в новой линейке представляет модель CX1000-G, предлагающая использование GPGPU возможностей современных графических процессоров NVIDIA. CX1000-G допускает установку до 9 блоков, каждый из которых содержит два процессора Intel Xeon 5600, до 48 Гб оперативной памяти и два процессора NVIDIA Tesla M1060. С учётом производительности одного модуля Tesla в 933 GFLOPS, общая производительность кластера составит почти 17000 GFLOPS даже без учёта вычислительных возможностей центральных процессоров Intel.

Надо отметить, что графические процессоры уже прочно «прописались» в мире суперкомпьютеров. В прошлом году в список самых производительных компьютеров TOP500 ворвался китайский компьютер Tianhe-1. Производительность петафлопного уровня и пятое место в списке тогда обеспечили 2560 видеокарт AMD Radeon HD 4870×2.