Новости про Tesla

NVIDIA представила ускоритель Tesla K40

В ходе конференции SC13 компания NVIDIA представила самый производительный в мире видеоускоритель Tesla K40, сделав это вслед за AMD Firepro S10000 12 GB.

Как и положено ускорителям Tesla, он предназначен для суперкомпьютеров и он на целых 40% превышает по производительности Tesla K20X. Кроме того, этот ускоритель в 10 раз быстрее самого быстрого на сегодня CPU. Таким образом, ускоритель Firepro S10000 12 GB пробыл на вершине всего несколько дней.

«GPU ускорители стали мейнстрим продуктом в высокопроизводительных ПК и суперкомпьютерах, позволяя инженерам и учёным создавать новшества и делать научные открытия», — заявил Сумит Гупта, главный менеджер NVIDIA по продуктам ускоренных вычислений.

Что касается аппаратной части, то K40 получил 2880 ядер CUDA с базовой частотой 745 МГц и до 875 МГц в режиме Boost, в то время как прошлое поколение, K20X, имело 2688 ядер частотой 732 МГц. В новой плате также используется более быстрая память GDDR5 частотой 3 ГГц, объём которой также как и противоборствующего лагеря составляет 12 ГБ.

В пресс-релизе компания указала, что  «ускоритель Tesla K40 обходит остальные ускорители по двум главным показателям вычислительной производительности: 4,29 терафлопса с обычной точностью и 1,43 терафлопса пиковой производительности с двойной точностью». Надо сказать, что это не совсем правда, поскольку AMD удалось сделать свой ускоритель с производительностью в 1,48 терафлопса при двойной точности вычислений.

Несмотря на недавний анонс, у NVIDIA уже есть первый клиент на новые платы. Им стал Техасский современный вычислительный центр в Остине, который планирует запустить новую интерактивную систему удалённой визуализации и анализа данных, под именем Maverick, уже в январе будущего года.

Появились сведения о карте NVIDIA Tesla K40 Atlas

В Сети появились сведения о том, что компания NVIDIA готовит новый однопроцессорный компьютерный ускоритель модели Tesla K40 с кодовым именем Atlas.

Благодаря слайду NVIDIA, утекшему в Сеть и опубликованному китайским ресурсом ByCare, мы теперь можем знать его спецификации. Итак, карта будет основана на GPU GK180. Об этом чипе пока ничего неизвестно, но учитывая имеющийся слайд, он не слишком сильно отличается от GK110.

Процессор имеет 2880 ядер CUDA. Общая производительность ускорителя составит 4 Тфлопса при обычной точности и 1,4 Тфлопса при расчётах с двойной точностью. Также плата получит 12 ГБ памяти GDDR5, что вдвое больше, чем у Tesla K20X. Память будет иметь пропускную способность 288 ГБ/с. Также ускоритель должен иметь функцию динамического разгона, который работает в режимах ANSYS и AMBER. По сравнению с прошлым поколением, новый ускоритель будет работать с шиной PCI-Express 3.

Сообщается, что карта будет продаваться в двух версиях: в виде дополнительной карты и SXM. В зависимости от этого будет меняться и энергопотребление, которое составит 235 Вт или 245 Вт соответственно.

NVIDIA хочет интегрировать ядро ARM в Tesla

На днях компания NVIDIA подтвердила информацию о том, что она планирует объединить свои GPGPU с 64 битными процессорами ARM в будущих продуктах Tesla.

Согласно информации, появившейся на сайте InfoWorld, главный технолог линейки продуктов Tesla Стив Скотт (Steve Scott) сообщил: «В недалёком будущем Tegra собирается обрести возможности GPU вычислений. Когда-нибудь в этом десятилетии мы также собираемся обеспечить совместную интеграцию CPU и GPU в линейке Tesla».

«Когда-нибудь в этом десятилетии» — это не совсем понятная формулировка, но мы полагаем, что это случится где-то в 2015 году.

Скотт имел ввиду процессоры ARMv8, недавно анонсированные под именами Cortex-A53 и A-57, которые должны поступить в массовое производство в 2014 году. Надо отметить, что NVIDIA не присоединилась к лицензированию ARMv8, хотя в число компаний-лицензентов входит AMD, Broadcom, Calxeda, HiSilicon, Samsung и STMicroelectronics.

В любом случае, выход на развивающийся рынок микросерверов, это реальная возможность для эволюции бизнеса NVIDIA. Объединение Tesla с ядрами ARMv8 позволит компании конкурировать в сегменте рынка, который будет заполнен такими тяжеловесами как Samsung, Qualcomm, Texas Instruments и Intel со стороны x86. Также на этом рынке компании придётся соревноваться со своим старым конкурентом — AMD.

NVIDIA выпускает Kepler для облачных игровых сервисов

Несмотря на множественные разговоры о разработках компании в промышленности, науке и бизнесе, которые состоялись на NVIDIA GPU Technology Conference, компания не забыла и об игровых графических процессорах.

Сегодня NVIDIA анонсировала то, что было названо облачной игровой платформой GeForce Grid, которая представляет собой потоковый сервис виртуализации игр будущего поколения на любом устройстве без заметных задержек, которые могут ухудшить геймплей.

Используя архитектуру Kepler, GeForce Grid GPU минимизирует энергопотребление, позволяя кодировать одновременно до восьми игровых потоков. Это даёт возможность провайдерам повысить экономическую эффективность служб, предлагая одновременно услуги сотням игроков.

В основе предложенного решения лежит двухпроцессорная видеокарта, при этом каждый GPU имеет собственный кодировщик. Суммарно два процессора имеют 3072 ядра CUDA, общая вычислительная способность которых составляет 4,7 терафлопса. Вся эта мощь позволит провайдерам услуги осуществлять рендер высокосложных игр в облаке, кодировать их на GPU, быстрее чем на CPU, что обеспечит большее число одновременно обрабатываемых потоков. Благодаря новой энергоэффективной архитектуре, весь вычислительный центр будет потреблять в два раза меньше электроэнергии, чем на предыдущих видеоускрителях.

На конференции GTC компания NVIDIA, совместно с Gaikai, продемонстрировали виртуальную игровую консоль на телевизоре LG Cinema 3D Smart TV, на котором работало приложение Gaikai, подключенное к серверу с GeForce Grid GPU, расположенном в 10 милях. В результате был показан быстрый и сглаженный геймплей без каких-либо заметных задержек. При этом телевизор был подключен посредством кабеля Ethernet, а игровой контроллер через беспроводной USB адаптер.

На вопрос об уровне задержек исполнительный директор NVIDIA Дзень-Сунь Хуан разъяснил, что задержки их системы составляют порядка 100 мс, что даже немного лучше, чем на современных консолях. Это достигается за счёт того, что нынешние приставки построены на технологиях 7-и летней давности, кроме того, ускоритель Kepler не использует кадровый буфер ввиду высокой производительности.

В будущем NVIDIA видит возрастающую популярность сервисов вещания игр, подобных Netflix. По мнению компании, видеопроцессоры Kepler способны положить начало широкой популяризации подобных служб, поскольку вместо современной концепции, предполагающей по одной видеокарте каждому игроку, будут использовать одну карту несколькими геймерами. Ожидаемая цена месячной подписки на все игры провайдера будет составлять порядка 10 долларов США.

NVIDIA ускоряет суперкомпьютер «Ломоносов»

САНТА-КЛАРА, Калифорния — 15 июня, 2011 — Российские ученые решили обратиться к суперкомпьютерам на базе GPU для решения научных задач, и сегодня Московский государственный университет имени М.В. Ломоносова оснащает свой суперкомпьютер «Ломоносов» графическими процессорами NVIDIA Tesla, благодаря чему он станет одной из самых быстрых вычислительных машин в мире.

Гибридное расширение «Ломоносова» состоит из 1554 графических процессоров NVIDIA Tesla X2070 и такого же числа четырехъядерных CPU, обеспечивая всю систему пиковой производительностью 1,3 петафлопс, что делает ее самым быстрым суперкомпьютером в России и одной из самых быстрых вычислительных систем в мире.

Суперкомпьютерные ресурсы МГУ используется в первую очередь для выполнения фундаментальных научных исследований, предполагающих ресурсоемкие вычисления. Среди таких задач масштабные работы по глобальному изменению климата и динамике мирового океана, постгеномной медицине, механизмам формирования галактик и др.

«Для наших исследований требуются огромные вычислительные ресурсы, и мы должны обеспечить необходимую производительность максимально эффективным способом»,— отметил Виктор Садовничий, академик РАН, ректор Московского государственного университета. «Единственно возможный способ добиться этих целей одновременно – использование гибридных вычислительных систем на базе GPU/CPU», добавил он.

Более подробно о новом расширении Tesla для суперкомпьютера «Ломоносов» можно прочесть на сайте NVIDIA.

Intel готовится выпустить ускорители с архитектурой Many Integrated Core в ближайшее время

Intel рассчитывает запустить первые Many Integrated Core (MIC) используя готовящийся к внедрению 22 нм техпроцесс, при этом планируется привлечь более 100 разработчиков для MIC до конца 2011 года.

Ожидается, что дополнительный акселератор микроархитектуры Intel MIC будет использоваться для сильно распараллеленных приложений в высокопроизводительных вычислениях, в таких сегментах как научные исследования и погодное моделирование. Но в отличие от AMD FireStream или NVIDIA Tesla, Intel хочет, чтобы их технология не заменила процессоры, а ускорила существующие приложения.

Intel настаивает, что х86-совместимость даст MIC уникальное преимущество. Кирк Скоген (Kirk Skaugen), вице-президент архитектурной группы и главный менеджер группы датацентра Intel, во время своего доклада на Intel Developer Forum сказал, что MIC будет, как бы, сопроцессором, на котором вы сможете использовать те же компиляторы, те же инструменты, тот же VTune. При этом вычислительная мощность составит порядка 90% самых производительных мировых компьютеров.

Он также пообещал, что когда вы запустите компилятор следующего поколения, он уже будет оптимально загружать ядра Intel, находящиеся в процессорах Xeon, и он будет оптимизировать загрузку на новых PCI-Express картах, которые будут иметь более чем 50 ядер изготовленных по 22 нм технологии.

А пока Intel представила тестовую платформу под названием Knights Ferry, предназначенную для отбора разработчиков и планы по увеличению числа разработчиков, имеющих необходимое оборудование, до сотни, к концу 2011 года.

Суперкомпьютеры с процессорами NVIDIA возглавили Top-500

Три вооружённых чипами NVIDIA суперкомпьютера оккупировали верхние строчки списка.

Ноябрьский список Top500 принёс ожидаемое первое место китайскому суперкомпьютеру Tianhe-1A, 2,7 петафлопа которому обеспечили вычислительные модули NVIDIA Tesla. Однако, он оказался не единственным GPU-ускоренным суперкомпьютером в верхних строчках списка. На третьем месте расположился предтеча Tianhe-1A, суперкомпьютер Nebulae, также оснащённый модулями Tesla, c общей производительностью в 1,27 петафлоп. Четвёртое место занял еще один новичок в списке, суперкомпьютер Tsubame 2.0 из Японии, в результат которого в 1,19 петафлоп основной вклад внесли процессоры NVIDIA Tesla.

Продукты компании Cray Inc продолжают удерживать половину верхней десятки списка, но такими темпами перевес скоро окажется не на их стороне и количественно.

CPU против GPU: новый раунд

Плюс прогноз применимости GPGPU для суперкомпьютеров.

В этом году IBM публиковала два исследования, в которых сравнивалась производительность CPU и GPU в математических задачах. В первом случае центральный процессор IBM Power 7 опередил GeForce GTX 285, причём двухпроцессорная система на базе Intel Xeon показала лишь чуть меньший результат, во втором испытании модуль NVIDIA Tesla 2050 опередил всех соперников, но разрыв в производительности составил чуть более двухкратного для Power 7 и не дотянул до четырёхкратного над Xeon. И вот появилось новое исследование, от университетов Оксфорда и Ворвика, Великобритания, в котором системам на базе Xeon были противопоставлены модули Tesla разных поколений и пара «бытовых» видеокарт.

Хотя для исполнения на CUDA использованный тест NAS LU пришлось портировать с Fortran на C, результат представляет немалый интерес. Всего один четырёхъядерный процессор Xeon X5550, работающий на частоте 2,66 ГГц, смог показать лучший результат, чем GeForce 9800 GT с теоретической производительностью 500 GFLOPS. GeForce 8400 GS из-за ограниченного буфера памяти (256 Мб) смогла выполнить лишь один этап из трёх и показала ужасную производительность. Модули Tesla оправдали свою репутацию, но отрыв в производительности не превышал 10-кратного. Любопытно, что включение режима защиты памяти ECC на Tesla 2050 стоило ей 20 % производительности, в том числе из-за потери 16 % объема видеопамяти на контрольные суммы.

Британские учёные не могли хотя бы частично не подтвердить свою репутацию. На основе полученных данных они попытались спрогнозировать производительность суперкомпьютерных систем на базе Tesla, сравнив их предсказанную производительность с хорошо себя зарекомендовавшими системами BlueGene /P от IBM.

Согласно предсказанию, традиционный подход к построению суперкомпьютеров выиграет по соотношению фактической производительности на Ватт, и в конечном итоге — по быстродействию вообще. Впрочем, GPU уже сделали заявку на лидерство среди суперкомпьютеров, посмотрим, что сможет на неё ответить та же IBM.

Китайский суперкомпьютер Tianhe-1A достиг быстродействия в 2,5 петафлопс используя NVIDIA Tesla

Микросхемы от NVIDIA приводят в действие самый мощный на сегодняшний день суперкомпьютер.

Китайский суперкомпьютер «Tianhe-1A» достиг быстродействия в 2,507 петафлопс, используя 7168 чипов NVIDIA Tesla M2050 и 14336 процессоров Intel Xeon. Это выше предыдущего рекорда (который тоже, кстати, поставлен в Поднебесной) суперкомпьютера «Nebulae», где также использовались чипы NVIDIA Tesla, обеспечившие производительность в 1,271 петафлопс.

Кроме того, по заявлению источника, представители NVIDIA заявили, что суперкомпьютер «Tianhe-1A» не только самый быстрый в мире, но и самый «зелёный», так как использует для своей работы всего лишь 4,04 мегаватта энергии. А это почти в 3 раза меньше для достижения аналогичной производительности при использовании в системе только CPU.

По заявлению менеджера по маркетингу чипа Tesla NVIDIA Sumit Gupta, приложения данного «open science project» будут использоваться для исследовательских работ в области астрофизики, биохимии и других прикладных наук.

Стоимость одних использованных карт Tesla для построения системы составила почти 18 миллионов долларов, но одна из самых мощных экономик мира легко может позволить себе такие затраты на фундаментальные научные исследования. Предположительно, «Tianhe-1A» займёт первую строчку в следующем выпуске рейтинга суперкомпьютеров TOP-500, скинув с пьедестала все суперкомпьютеры США и Европы.

Серверы Dell с готовностью к GPGPU и виртуализации

Модульный сервер позволяет установить до 16 GPU-карт PCI-Express.

Компания Dell для своих новых серверов линейки PowerEdge C Series предусматривает специальный блок расширения PowerEdge C410x, представляющий собой платформу для установки карт с интерфейсом PCI-Express x16.

Данный модуль высотой 3U позволяет установить 16 GPU-карт (10 спереди и 6 сзади) с TDP до 225 Вт каждая, и рассчитан прежде всего на установку GPGPU модулей NVIDIA Tesla M2050 с 448 ядрами CUDA архитектуры Fermi и тремя или шестью гигабайтами ECCGDDR-5 памяти.

Питание обеспечивают 4 блока мощностью 1400 Вт каждый, за охлаждение отвечают восемь 92-мм вентиляторов. Блоки питания и вентиляторы поддерживают отказоустойчивость и «горячую» замену. Модули карт поддерживают добавление на ходу, но не замену.

Совокупная вычислительная мощность платформы — более 16 000 GFLOPS и может быть разделена между 8 серверами PowerEdge C Series, подключаемыми с помощью внешних соединений PCI-Express I-PASS к специальным интерфейсным картам NVIDIA HIC. Программная поддержка решения пока реализована лишь в Red Hat Enterprise Linux.

Dell уже поставила подобную систему как часть суперкомпьютера Lincoln для Национального суперкомпьютерного центра США, с вычислительной производительностью в 47 TFLOPS. Но подобный продукт, без сомнения, найдёт спрос и у корпоративных потребителей в области решений для виртуализации, поскольку и Microsoft, и VmWare уже объявили, что следующее поколение их продуктов будет поддерживать виртуализацию графического процессора, что позволит исполнять «тяжёлые» графические приложения в виртуальных машинах. Причём предварительная версия технологии Microsoft RemoteFX уже доступна в открытом для бета-тестирования Windows Server 2008 R2 SP1 Release Candidate.