Новости про Tesla и суперкомпьютеры

NVIDIA обновила свой суперкомпьютер на базе GPU

Дженсен Хуан, глава NVIDIA, в ходе GTC представил обновлённую систему машинного обучения, построенную на ускорителе Tesla V100, однако в отличие от прошлогоднего решения, новый модуль содержит 32 ГБ памяти HBM2.

В прошлом году NVIDIA представила суперкомпьютер для искусственного интеллекта DGX-1. Новая модель DGX-2 имеет удвоенное количество процессорных модулей Tesla V100. При этом DGX-2 имеет вдвое больше доступной памяти.

Суперкомпьютерынй модуль NVIDIA DGX-2

Кроме увеличения производительности вычислений и памяти, NVIDIA также обновила и шину связи. Она заменена новой технологией NVSwitch, которая представляет собой ткань интерконнекта, позволяя связывать до 16 GPU и создавать общее пространство памяти. Прошлая версия позволяла объединять только 8 GPU.

По словам разработчиков, технология NVSwitch в 5 раз быстрее PCI-Express, объединённая скорость которой достигает 2,4 ТБ/с.

NVIDIA выпустила Tesla K80

Компания NVIDIA анонсировала Tesla K80, новый двухчиповый ускоритель GPGPU для применения в расчётах с высокой производительностью.

В карте установлены два процессора GK210 семейства Kepler, что в сумме даёт 4992 ядра CUDA. На плате разведена шина памяти GDDR5 шириной 384 бита, которая передаёт данные на 24 ГБ памяти. Максимальная пропускная способность ускорителя K80 составляет 480 ГБ/с. NVIDIA обещает, что в операциях обычной точности производительность карты составит 8,74 терафлопса, а при двойной точности — 2,91 терафлопса.

Разработчики уверяют, что K80 обеспечивает вдвое большую производительность, по сравнению с одночиповым решением K40. Кроме того, этот ускоритель довольно скромно относится к энергоснабжению. Так, TDP K80 составляет 300 Вт, или по 150 Вт на GPU, в то время как K40 рассеивает 235 ватт тепла. Примечательно, что K80 имеет пассивное охлаждение, полностью полагаясь на эффективность вентиляторов шасси.

Несмотря на столь высокую эффективность, обозреватели полагают, что ожидать потребительскую версию K80 не стоит, ведь в отличие от рынка HPC, бытовой рынок уже перешёл на поколение Maxwell, таким образом, GK210 должен стать первым GPU компании, который не найдёт своего решения на потребительском уровне.

NVIDIA представила ускоритель Tesla K40

В ходе конференции SC13 компания NVIDIA представила самый производительный в мире видеоускоритель Tesla K40, сделав это вслед за AMD Firepro S10000 12 GB.

Как и положено ускорителям Tesla, он предназначен для суперкомпьютеров и он на целых 40% превышает по производительности Tesla K20X. Кроме того, этот ускоритель в 10 раз быстрее самого быстрого на сегодня CPU. Таким образом, ускоритель Firepro S10000 12 GB пробыл на вершине всего несколько дней.

«GPU ускорители стали мейнстрим продуктом в высокопроизводительных ПК и суперкомпьютерах, позволяя инженерам и учёным создавать новшества и делать научные открытия», — заявил Сумит Гупта, главный менеджер NVIDIA по продуктам ускоренных вычислений.

Что касается аппаратной части, то K40 получил 2880 ядер CUDA с базовой частотой 745 МГц и до 875 МГц в режиме Boost, в то время как прошлое поколение, K20X, имело 2688 ядер частотой 732 МГц. В новой плате также используется более быстрая память GDDR5 частотой 3 ГГц, объём которой также как и противоборствующего лагеря составляет 12 ГБ.

В пресс-релизе компания указала, что  «ускоритель Tesla K40 обходит остальные ускорители по двум главным показателям вычислительной производительности: 4,29 терафлопса с обычной точностью и 1,43 терафлопса пиковой производительности с двойной точностью». Надо сказать, что это не совсем правда, поскольку AMD удалось сделать свой ускоритель с производительностью в 1,48 терафлопса при двойной точности вычислений.

Несмотря на недавний анонс, у NVIDIA уже есть первый клиент на новые платы. Им стал Техасский современный вычислительный центр в Остине, который планирует запустить новую интерактивную систему удалённой визуализации и анализа данных, под именем Maverick, уже в январе будущего года.

NVIDIA ускоряет суперкомпьютер «Ломоносов»

САНТА-КЛАРА, Калифорния — 15 июня, 2011 — Российские ученые решили обратиться к суперкомпьютерам на базе GPU для решения научных задач, и сегодня Московский государственный университет имени М.В. Ломоносова оснащает свой суперкомпьютер «Ломоносов» графическими процессорами NVIDIA Tesla, благодаря чему он станет одной из самых быстрых вычислительных машин в мире.

Гибридное расширение «Ломоносова» состоит из 1554 графических процессоров NVIDIA Tesla X2070 и такого же числа четырехъядерных CPU, обеспечивая всю систему пиковой производительностью 1,3 петафлопс, что делает ее самым быстрым суперкомпьютером в России и одной из самых быстрых вычислительных систем в мире.

Суперкомпьютерные ресурсы МГУ используется в первую очередь для выполнения фундаментальных научных исследований, предполагающих ресурсоемкие вычисления. Среди таких задач масштабные работы по глобальному изменению климата и динамике мирового океана, постгеномной медицине, механизмам формирования галактик и др.

«Для наших исследований требуются огромные вычислительные ресурсы, и мы должны обеспечить необходимую производительность максимально эффективным способом»,— отметил Виктор Садовничий, академик РАН, ректор Московского государственного университета. «Единственно возможный способ добиться этих целей одновременно – использование гибридных вычислительных систем на базе GPU/CPU», добавил он.

Более подробно о новом расширении Tesla для суперкомпьютера «Ломоносов» можно прочесть на сайте NVIDIA.

Суперкомпьютеры с процессорами NVIDIA возглавили Top-500

Три вооружённых чипами NVIDIA суперкомпьютера оккупировали верхние строчки списка.

Ноябрьский список Top500 принёс ожидаемое первое место китайскому суперкомпьютеру Tianhe-1A, 2,7 петафлопа которому обеспечили вычислительные модули NVIDIA Tesla. Однако, он оказался не единственным GPU-ускоренным суперкомпьютером в верхних строчках списка. На третьем месте расположился предтеча Tianhe-1A, суперкомпьютер Nebulae, также оснащённый модулями Tesla, c общей производительностью в 1,27 петафлоп. Четвёртое место занял еще один новичок в списке, суперкомпьютер Tsubame 2.0 из Японии, в результат которого в 1,19 петафлоп основной вклад внесли процессоры NVIDIA Tesla.

Продукты компании Cray Inc продолжают удерживать половину верхней десятки списка, но такими темпами перевес скоро окажется не на их стороне и количественно.

CPU против GPU: новый раунд

Плюс прогноз применимости GPGPU для суперкомпьютеров.

В этом году IBM публиковала два исследования, в которых сравнивалась производительность CPU и GPU в математических задачах. В первом случае центральный процессор IBM Power 7 опередил GeForce GTX 285, причём двухпроцессорная система на базе Intel Xeon показала лишь чуть меньший результат, во втором испытании модуль NVIDIA Tesla 2050 опередил всех соперников, но разрыв в производительности составил чуть более двухкратного для Power 7 и не дотянул до четырёхкратного над Xeon. И вот появилось новое исследование, от университетов Оксфорда и Ворвика, Великобритания, в котором системам на базе Xeon были противопоставлены модули Tesla разных поколений и пара «бытовых» видеокарт.

Хотя для исполнения на CUDA использованный тест NAS LU пришлось портировать с Fortran на C, результат представляет немалый интерес. Всего один четырёхъядерный процессор Xeon X5550, работающий на частоте 2,66 ГГц, смог показать лучший результат, чем GeForce 9800 GT с теоретической производительностью 500 GFLOPS. GeForce 8400 GS из-за ограниченного буфера памяти (256 Мб) смогла выполнить лишь один этап из трёх и показала ужасную производительность. Модули Tesla оправдали свою репутацию, но отрыв в производительности не превышал 10-кратного. Любопытно, что включение режима защиты памяти ECC на Tesla 2050 стоило ей 20 % производительности, в том числе из-за потери 16 % объема видеопамяти на контрольные суммы.

Британские учёные не могли хотя бы частично не подтвердить свою репутацию. На основе полученных данных они попытались спрогнозировать производительность суперкомпьютерных систем на базе Tesla, сравнив их предсказанную производительность с хорошо себя зарекомендовавшими системами BlueGene /P от IBM.

Согласно предсказанию, традиционный подход к построению суперкомпьютеров выиграет по соотношению фактической производительности на Ватт, и в конечном итоге — по быстродействию вообще. Впрочем, GPU уже сделали заявку на лидерство среди суперкомпьютеров, посмотрим, что сможет на неё ответить та же IBM.

Китайский суперкомпьютер Tianhe-1A достиг быстродействия в 2,5 петафлопс используя NVIDIA Tesla

Микросхемы от NVIDIA приводят в действие самый мощный на сегодняшний день суперкомпьютер.

Китайский суперкомпьютер «Tianhe-1A» достиг быстродействия в 2,507 петафлопс, используя 7168 чипов NVIDIA Tesla M2050 и 14336 процессоров Intel Xeon. Это выше предыдущего рекорда (который тоже, кстати, поставлен в Поднебесной) суперкомпьютера «Nebulae», где также использовались чипы NVIDIA Tesla, обеспечившие производительность в 1,271 петафлопс.

Кроме того, по заявлению источника, представители NVIDIA заявили, что суперкомпьютер «Tianhe-1A» не только самый быстрый в мире, но и самый «зелёный», так как использует для своей работы всего лишь 4,04 мегаватта энергии. А это почти в 3 раза меньше для достижения аналогичной производительности при использовании в системе только CPU.

По заявлению менеджера по маркетингу чипа Tesla NVIDIA Sumit Gupta, приложения данного «open science project» будут использоваться для исследовательских работ в области астрофизики, биохимии и других прикладных наук.

Стоимость одних использованных карт Tesla для построения системы составила почти 18 миллионов долларов, но одна из самых мощных экономик мира легко может позволить себе такие затраты на фундаментальные научные исследования. Предположительно, «Tianhe-1A» займёт первую строчку в следующем выпуске рейтинга суперкомпьютеров TOP-500, скинув с пьедестала все суперкомпьютеры США и Европы.

Серверы Dell с готовностью к GPGPU и виртуализации

Модульный сервер позволяет установить до 16 GPU-карт PCI-Express.

Компания Dell для своих новых серверов линейки PowerEdge C Series предусматривает специальный блок расширения PowerEdge C410x, представляющий собой платформу для установки карт с интерфейсом PCI-Express x16.

Данный модуль высотой 3U позволяет установить 16 GPU-карт (10 спереди и 6 сзади) с TDP до 225 Вт каждая, и рассчитан прежде всего на установку GPGPU модулей NVIDIA Tesla M2050 с 448 ядрами CUDA архитектуры Fermi и тремя или шестью гигабайтами ECC GDDR-5 памяти.

Питание обеспечивают 4 блока мощностью 1400 Вт каждый, за охлаждение отвечают восемь 92-мм вентиляторов. Блоки питания и вентиляторы поддерживают отказоустойчивость и «горячую» замену. Модули карт поддерживают добавление на ходу, но не замену.

Совокупная вычислительная мощность платформы — более 16 000 GFLOPS и может быть разделена между 8 серверами PowerEdge C Series, подключаемыми с помощью внешних соединений PCI-Express I-PASS к специальным интерфейсным картам NVIDIA HIC. Программная поддержка решения пока реализована лишь в Red Hat Enterprise Linux.

Dell уже поставила подобную систему как часть суперкомпьютера Lincoln для Национального суперкомпьютерного центра США, с вычислительной производительностью в 47 TFLOPS. Но подобный продукт, без сомнения, найдёт спрос и у корпоративных потребителей в области решений для виртуализации, поскольку и Microsoft, и VmWare уже объявили, что следующее поколение их продуктов будет поддерживать виртуализацию графического процессора, что позволит исполнять «тяжёлые» графические приложения в виртуальных машинах. Причём предварительная версия технологии Microsoft RemoteFX уже доступна в открытом для бета-тестирования Windows Server 2008 R2 SP1 Release Candidate.

Nebulae, китайский суперкомпьютер, использующий Fermi, ворвался в TOP-500

Недавно на конференции International Supercomputing Conference в Гамбурге был обновлён список Top-500 самых быстрых суперкомпьютеров мира. Главной неожиданностью стал выход на вторую строчку нового китайского суперкомпьютера Nebulae, установленного в Государственном суперкомпьютерном центре (Shenzhen Supercomputing Center).

Киитайский суперкомпьютер Nebulae вошёл в Топ-500 впервые и занял сразу второе место. Система обладает производительностью в 1,27 петафлопс (по данным теста Linpack), уступая американскому суперкомпьютеру Jaguar с показателем 1,76 петафлопс. В то же время китайская система является лидером по теоретической пиковой производительности с показателем 2,98 петафлопс. Nebulae работает на базе blade-системы Dawning TC3600 (производства Dawning China) с использованием процессоров Intel X5650 и графических чипов Nvidia Tesla C2050. Jaguar же был построен компанией Cray на базе преимущественно шестиядерных процессоров Opteron 2,6 ГГц каждый, и насчитывает 224162 ядер. У Nebulae количество ядер вдвое меньшее, чем у Jaguar — 120640.

На третьем месте оказался бывший лидер рейтинга — сконструированный в IBM первый в мире петафлопсовый суперкомпьютер Roadrunner из Национальной лаборатории в Лос-Аламосе. Он работает на процессорах PowerXCell 8i 3.2 ГГц и Opteron DC 1.8 ГГц.

Cray запускает в производство суперкомпьютер с GPU NVIDIA Tesla

Вычислительные модули NVIDIA Tesla обеспечат 17 000 GFLOPS.

Известный изготовитель высокопроизводительных компьютеров Cray Ink. объявила о запуске новой линейки вычислительных кластеров CX1000. Наибольший интерес в новой линейке представляет модель CX1000-G, предлагающая использование GPGPU возможностей современных графических процессоров NVIDIA. CX1000-G допускает установку до 9 блоков, каждый из которых содержит два процессора Intel Xeon 5600, до 48 Гб оперативной памяти и два процессора NVIDIA Tesla M1060. С учётом производительности одного модуля Tesla в 933 GFLOPS, общая производительность кластера составит почти 17000 GFLOPS даже без учёта вычислительных возможностей центральных процессоров Intel.

Надо отметить, что графические процессоры уже прочно «прописались» в мире суперкомпьютеров. В прошлом году в список самых производительных компьютеров TOP500 ворвался китайский компьютер Tianhe-1. Производительность петафлопного уровня и пятое место в списке тогда обеспечили 2560 видеокарт AMD Radeon HD 4870×2.

Процессоры Tesla на базе Fermi уменьшат стоимость суперкомпьютеров в 10 раз

Корпорация NVIDIA представила новую 20-ю серию параллельных процессоров Tesla, созданную для рынка высокопроизводительных систем и серверов и основанную на новой архитектуре Fermi.

Компания утверждает, что её решения позволяют сократить затраты на создание суперкомпьютера в 10 раз в сравнении с традиционными микропроцессорами при уменьшении энергопотребления в 20 раз.

Стоит отметить: в пресс-релизе говорится, что параллельные процессоры Tesla нового поколения будут доступны лишь во второй четверти следующего года. Не говорит ли это об очередной отсрочке выхода игровых видеокарт, ведь NVIDIA обещала одновременный запуск GeForce, Quadro и Tesla на базе чипа Fermi? Однако пока официально выход видеокарт GeForce нового поколения намечен на первую четверть 2010 года.

Семейство Tesla 20-й серии включает в себя:

  • процессоры Tesla C2050 и C2070 GPU с пиковой производительностью при вычислениях с двойной точностью в 520 и 630 Гфлопс, с объёмом GDDR5-памяти 3 Гб или 6 Гб;
  • вычислительные системы Tesla S2050 и S2070, в каждой из которых установлено по 4 процессора Tesla нового поколения.

Tesla C2050 и C2070 обойдутся в 2500 $ и 4000 $, а Tesla S2050 и S2070 — в 13 000 $ и 19 000 $.