Новости про GPGPU и Tesla

Утилита HWiNFO обновилась до версии 4.32

Словацкая утилита HWiNFO32/64 — это одна из старейших и мощнейших утилит по получению информации о системе, её диагностирования и мониторинга в реальном режиме времени.

Программа позволяют получать сведения о системе, а диагностическая часть поддерживает самые свежие компоненты, промышленные технологии и стандарты. Эти инструменты нацелены на распознавание и извлечение всей возможной информации об аппаратном обеспечении компьютера, что делает утилиты подходящими для пользователей, ищущих драйвера, производителей компьютеров, системных интеграторов и технических экспертов.

HWiNFO

В новой версии основное усилие разработчиков было направлено на исправление показаний датчиков материнских плат. Также была расширена база данных программы, в которой появились и уточнились сведения об интегрированных GPU и платах GPGPU.

Полный перечень изменений приведен ниже:

  • Исправлен отчёт с предупреждением о диске на некоторых SSD.
  • Добавлены NVIDIA Tesla K40m, K40st, K40s.
  • Улучшен мониторинг датчиков на материнских платах MSI серии 8.
  • Исправлен датчик на CPU Intel Haswell-U/Y.
  • Улучшено распознавание CHiL CHL8318/CHL8266 на GPU.
  • Улучшен мониторинг датчиков на MSI NF750-G55.
  • Исправлено сообщения о показаниях датчиков на GPU AMD после отключения питания.
  • Исправлена нумерация поздних AMD DGPU.
  • Исправлен мониторинг датчиков на ASUS MAXIMUS VI.
  • Добавлен мониторинг TSOD на SNB/IVB/HSW/BDW-E/EN/EP/EX.
  • Исправлен выбор размера шрифта для LG LCD.
  • Исправлены сообщения о частотах GPU на Haswell GT1.5.
  • Добавлена поддержка ITE IT8620E HW monitor.
  • Улучшен мониторинг датчиков на GIGABYTE серии A88X.

Нужной вам разрядности (32 или 64 бита) утилиту можно загрузить с официального ресурса. Как и раньше, программа HWiNFO32/64 беспроблемно работает на всех версиях ОС Windows от XP до 8.1, и, как и прежде, она совершенно бесплатна.

NVIDIA представила ускоритель Tesla K40

В ходе конференции SC13 компания NVIDIA представила самый производительный в мире видеоускоритель Tesla K40, сделав это вслед за AMD Firepro S10000 12 GB.

Как и положено ускорителям Tesla, он предназначен для суперкомпьютеров и он на целых 40% превышает по производительности Tesla K20X. Кроме того, этот ускоритель в 10 раз быстрее самого быстрого на сегодня CPU. Таким образом, ускоритель Firepro S10000 12 GB пробыл на вершине всего несколько дней.

«GPU ускорители стали мейнстрим продуктом в высокопроизводительных ПК и суперкомпьютерах, позволяя инженерам и учёным создавать новшества и делать научные открытия», — заявил Сумит Гупта, главный менеджер NVIDIA по продуктам ускоренных вычислений.

Tesla K40

Что касается аппаратной части, то K40 получил 2880 ядер CUDA с базовой частотой 745 МГц и до 875 МГц в режиме Boost, в то время как прошлое поколение, K20X, имело 2688 ядер частотой 732 МГц. В новой плате также используется более быстрая память GDDR5 частотой 3 ГГц, объём которой также как и противоборствующего лагеря составляет 12 ГБ.

В пресс-релизе компания указала, что  «ускоритель Tesla K40 обходит остальные ускорители по двум главным показателям вычислительной производительности: 4,29 терафлопса с обычной точностью и 1,43 терафлопса пиковой производительности с двойной точностью». Надо сказать, что это не совсем правда, поскольку AMD удалось сделать свой ускоритель с производительностью в 1,48 терафлопса при двойной точности вычислений.

Несмотря на недавний анонс, у NVIDIA уже есть первый клиент на новые платы. Им стал Техасский современный вычислительный центр в Остине, который планирует запустить новую интерактивную систему удалённой визуализации и анализа данных, под именем Maverick, уже в январе будущего года.

Появились сведения о карте NVIDIA Tesla K40 Atlas

В Сети появились сведения о том, что компания NVIDIA готовит новый однопроцессорный компьютерный ускоритель модели Tesla K40 с кодовым именем Atlas.

Благодаря слайду NVIDIA, утекшему в Сеть и опубликованному китайским ресурсом ByCare, мы теперь можем знать его спецификации. Итак, карта будет основана на GPU GK180. Об этом чипе пока ничего неизвестно, но учитывая имеющийся слайд, он не слишком сильно отличается от GK110.

Спецификации Tesla K40

Процессор имеет 2880 ядер CUDA. Общая производительность ускорителя составит 4 Тфлопса при обычной точности и 1,4 Тфлопса при расчётах с двойной точностью. Также плата получит 12 ГБ памяти GDDR5, что вдвое больше, чем у Tesla K20X. Память будет иметь пропускную способность 288 ГБ/с. Также ускоритель должен иметь функцию динамического разгона, который работает в режимах ANSYS и AMBER. По сравнению с прошлым поколением, новый ускоритель будет работать с шиной PCI-Express 3.

Сообщается, что карта будет продаваться в двух версиях: в виде дополнительной карты и SXM. В зависимости от этого будет меняться и энергопотребление, которое составит 235 Вт или 245 Вт соответственно.

CPU против GPU: новый раунд

Плюс прогноз применимости GPGPU для суперкомпьютеров.

В этом году IBM публиковала два исследования, в которых сравнивалась производительность CPU и GPU в математических задачах. В первом случае центральный процессор IBM Power 7 опередил GeForce GTX 285, причём двухпроцессорная система на базе Intel Xeon показала лишь чуть меньший результат, во втором испытании модуль NVIDIA Tesla 2050 опередил всех соперников, но разрыв в производительности составил чуть более двухкратного для Power 7 и не дотянул до четырёхкратного над Xeon. И вот появилось новое исследование, от университетов Оксфорда и Ворвика, Великобритания, в котором системам на базе Xeon были противопоставлены модули Tesla разных поколений и пара «бытовых» видеокарт.

Xeon vs CUDA results

Хотя для исполнения на CUDA использованный тест NAS LU пришлось портировать с Fortran на C, результат представляет немалый интерес. Всего один четырёхъядерный процессор Xeon X5550, работающий на частоте 2,66 ГГц, смог показать лучший результат, чем GeForce 9800 GT с теоретической производительностью 500 GFLOPS. GeForce 8400 GS из-за ограниченного буфера памяти (256 Мб) смогла выполнить лишь один этап из трёх и показала ужасную производительность. Модули Tesla оправдали свою репутацию, но отрыв в производительности не превышал 10-кратного. Любопытно, что включение режима защиты памяти ECC на Tesla 2050 стоило ей 20 % производительности, в том числе из-за потери 16 % объема видеопамяти на контрольные суммы.

Британские учёные не могли хотя бы частично не подтвердить свою репутацию. На основе полученных данных они попытались спрогнозировать производительность суперкомпьютерных систем на базе Tesla, сравнив их предсказанную производительность с хорошо себя зарекомендовавшими системами BlueGene /P от IBM.

Tesla vs BlueGene preview

Согласно предсказанию, традиционный подход к построению суперкомпьютеров выиграет по соотношению фактической производительности на Ватт, и в конечном итоге — по быстродействию вообще. Впрочем, GPU уже сделали заявку на лидерство среди суперкомпьютеров, посмотрим, что сможет на неё ответить та же IBM.

Серверы Dell с готовностью к GPGPU и виртуализации

Модульный сервер позволяет установить до 16 GPU-карт PCI Express.

Компания Dell для своих новых серверов линейки PowerEdge C Series предусматривает специальный блок расширения PowerEdge C410x, представляющий собой платформу для установки карт с интерфейсом PCI Express x16.

Dell PowerEdge C 410x

Данный модуль высотой 3U позволяет установить 16 GPU-карт (10 спереди и 6 сзади) с TDP до 225 Вт каждая, и рассчитан прежде всего на установку GPGPU модулей NVIDIA Tesla M2050 с 448 ядрами CUDA архитектуры Fermi и тремя или шестью гигабайтами ECC GDDR-5 памяти.

Dell PowerEdge C 410x

Питание обеспечивают 4 блока мощностью 1400 Вт каждый, за охлаждение отвечают восемь 92-мм вентиляторов. Блоки питания и вентиляторы поддерживают отказоустойчивость и «горячую» замену. Модули карт поддерживают добавление на ходу, но не замену.

Dell PowerEdge C 410x

Совокупная вычислительная мощность платформы — более 16 000 GFLOPS и может быть разделена между 8 серверами PowerEdge C Series, подключаемыми с помощью внешних соединений PCI Express I-PASS к специальным интерфейсным картам NVIDIA HIC. Программная поддержка решения пока реализована лишь в Red Hat Enterprise Linux.

Dell уже поставила подобную систему как часть суперкомпьютера Lincoln для Национального суперкомпьютерного центра США, с вычислительной производительностью в 47 TFLOPS. Но подобный продукт, без сомнения, найдёт спрос и у корпоративных потребителей в области решений для виртуализации, поскольку и Microsoft, и VmWare уже объявили, что следующее поколение их продуктов будет поддерживать виртуализацию графического процессора, что позволит исполнять «тяжёлые» графические приложения в виртуальных машинах. Причём предварительная версия технологии Microsoft RemoteFX уже доступна в открытом для бета-тестирования Windows Server 2008 R2 SP1 Release Candidate.

Cray запускает в производство суперкомпьютер с GPU NVIDIA Tesla

Вычислительные модули NVIDIA Tesla обеспечат 17 000 GFLOPS.

Известный изготовитель высокопроизводительных компьютеров Cray Ink. объявила о запуске новой линейки вычислительных кластеров CX1000. Наибольший интерес в новой линейке представляет модель CX1000-G, предлагающая использование GPGPU возможностей современных графических процессоров NVIDIA. CX1000-G допускает установку до 9 блоков, каждый из которых содержит два процессора Intel Xeon 5600, до 48 Гб оперативной памяти и два процессора NVIDIA Tesla M1060. С учётом производительности одного модуля Tesla в 933 GFLOPS, общая производительность кластера составит почти 17000 GFLOPS даже без учёта вычислительных возможностей центральных процессоров Intel.

Cray CX1000-G

Надо отметить, что графические процессоры уже прочно «прописались» в мире суперкомпьютеров. В прошлом году в список самых производительных компьютеров TOP500 ворвался китайский компьютер Tianhe-1. Производительность петафлопного уровня и пятое место в списке тогда обеспечили 2560 видеокарт AMD Radeon HD 4870×2.

Мир меняется благодаря CUDA

NVIDIA на своём канале YouTube опубликовала примечательный 5-минтуный видеоролик, посвящённый применению CUDA в реальных приложениях.

Логотип NVIDIA CUDA

За 5 минут перед нами выступает семь представителей компаний, использующих в своих продуктах вычислительные мощности NVIDIA Tesla, Quadro и GeForce GPUs.

Сегменты видео:

  • 0:00 – 0:38: Siemens Medical (Roee Lazebnik) — применение CUDA, Quadro и 3D Vision в медицине.
  • 0:39 – 1:19: Kaspersky Lab (Roel Schouwenberg) — ускорение определения вирусов с помощью CUDA и Tesla.
  • 1:20 – 1:42: Muvee (Elvin Low) — применение CUDA и мощностей GeForce для создания видеослайдшоу.
  • 1:43 – 2:30: CyberLink (Tom Vaughan) — улучшенное определение лиц с помощью мощностей CUDA, GeForce, а также просмотр 3D Blu-ray с помощью 3D Vision.
  • 2:31 – 3:20: Agilent (Amolak Badesha) — использование CUDA, Quadro и 3D Vision для улучшения внешнего вида схем.
  • 3:21 – 4:13: Adobe (Karl Soulé) — использование CUDA на картах Quadro, GeForce для ускорения предварительного просмотра, наложения эффектов и рендеринга в новом Premiere Pro.
  • 4:14 – 5:12: MotionDSP (Mike Sonders) — применение CUDA и GeForce для улучшения некачественного видео.

Дистрибутив Yellow Dog Linux обзавёлся поддержкой CUDA

Компания Fixstars, выпускающая достаточно известный дистрибутив Yellow Dog Linux, подготовила специальную версию с интегрированной поддержкой CUDA.

Новая CUDA-редакция Yellow Dog Enterprise Linux поставляется с интегрированными средствами разработки CUDA Toolkit, CUDA SDK и Visual Profiler, а также с предустановленным драйвером NVIDIA и средой разработки Eclipse, для которой Fixstars разработала специальный плагин, приближающий возможности разработки CUDA-программ к известному продукту NVIDIA Parallel NSight для Windows (ранее известного как Nexus). В этой версии Yellow Dog Enterprise Linux обеспечена возможность быстрого переключения между CUDA toolkit и runtimes версий 3.0, 2.3 и 2.2 без необходимости переустановки, для каждого приложения индивидуально через установку переменных среды. Дистрибутив проходит жёсткое тестирование в GPGPU-системах. Согласно распространяемым компанией результатам бенчмарков, оптимизации для GPGPU в дистрибутиве YDEL позволяют добиться до 9% преимущества в производительности в сравнении с другими популярными дистрибутивами Linux.

NVIDIA CUDA logo

Для коммерческих применений Yellow Dog Enterprise Linux поставляется в форме подписки ценой 400 USD в год на компьютер/сервер. Система доступна бесплатно для образовательных целей. Fixstars также предлагает готовые компьютеры и серверы, оснащённые вычислительными модулями NVIDIA Tesla и с предустановленной CUDA-редакцией YDEL.

Ускорение поиска лекарств с помощью графических процессоров

Сегодня в отношении высокопараллельных расчётов графические процессоры (GPU) серьёзно превосходят центральные (CPU). Во многих научных областях GPU уже активно используются и сильно помогают специалистам. NVIDIA решила рассказать о ещё одной важной области исследований: ускорение поиска лекарств с помощью мощностей графических процессоров.

Поиск новых лекарств — это сложная и трудоёмкая задача. Биохимики должны проверить миллионы составов прежде чем смогут выбрать те, что наиболее эффективны против определённого вируса или бактерии или те, что вызывают желательную реакцию человеческого тела.

Поиск лекарств

Для ограничения области поиска  учёные используют сложные инструменты высокопроизводительной фильтрации. Однако, на определённом этапе им, всё же приходится тестировать оставшиеся биохимические составы в ручных экспериментах.

Тестирование составов — это многократный процесс, который может длиться пять лет до того, как новое лекарство будет, наконец, обнаружено. Потом пять или более лет идут клинические испытания и прочие процедуры, необходимые для того, чтобы управление по контролю за продуктами и лекарствами одобрило новый препарат. Таким образом, всё, что может ускорить процесс тестирования позволяет приблизить появление на рынке лекарств, которые потенциально могут сохранить жизни.

Поиск лекарств

Компьютерная симуляция биохимических реакций помогает учёным выбрать более продуктивное направление исследования и улучшить продуктивность своей работы. Проблема лишь в том, что подобная симуляция настолько сложная задача, что обычно она вычисляется на суперкомпьютерах и занимает при этом недели или даже месяцы при симуляции лишь одной биохимической реакции. К примеру, чтобы воссоздать процесс, при котором микроскопические клеточные механизмы, называемые рибосомами, работают с протеинами для построения аминокислот, Аламосской национальной лаборатории понадобилось девять месяцев работы суперкомпьютера, хотя в реальности это происходит всего за две наносекунды.

Это лишь один из примеров тех областей исследований, в которых применение вычислений общего назначения средствами графических ускорителей может принести огромные преимущества. Всего по оценкам NVIDIA в мире около 15—20 миллионов исследователей, которые могут серьёзно улучшить продуктивность своей работы благодаря доступу к суперкомпьютерным мощностям. Однако, в мире всего лишь несколько тысяч суперкомпьютеров и многим исследователям приходится заказывать вычислительное время за год вперёд, а многие и вовсе лишены такой привилегии.

В ближайшем будущем множество исследователей получат доступ к огромным вычислительным ресурсам графических ускорителей, что, будем надеяться, приблизит наступление светлого будущего.

NVIDIA обновила характеристики процессоров Tesla нового поколения

NVIDIA тихо опубликовала спецификации своих продуктов семейства Tesla нового поколения, основанных на чипе Fermi.

Довольно неожиданной новостью стало то, что флагманский процессор Tesla C2070, как, впрочем, и Tesla C2050 будут иметь урезанное количество шейдерных процессоров: 448 вместо 512. Таким образом, NVIDIA отключит 2 из 16 вычислительных блоков чипа Fermi.

Как и сообщалось ранее, NVIDIA Tesla C2050 и C2070 — это одночиповые карты с объёмом GDDR5-памяти 3 Гб и 6 Гб (частоты от 3,6 до 4 ГГц) соответственно (при включении ECC, объём доступной памяти уменьшается до 2,625 Гб для C2050 и до 5,25 Гб для C2070). Производительность процессоров в вычислениях двойной точности составляет 520—630 гигафлоп/с.

Ранее предполагалось, что процессоры Tesla нового поколения будут иметь 512 шейдерных процессоров, ведь чип обладает именно таким количеством параллельных вычислительных блоков. Однако, компания решила урезать карты по каким-то неизвестным причинам. Возможно, в целях уменьшения количества отбракованных кристаллов или же сохранения приемлемого уровня энергопотребления.

Стоимость процессоров Tesla C2050 и C2070 составит в рознице 2500 $ и 4000 $ соответственно. Выход продуктов намечен на вторую четверть следующего года.

NVIDIA снова покажет процессор Tesla на базе Fermi

Компания NVIDIA сообщила, что ею будет показан в работе новый потоковый процессор Tesla на базе чипа нового поколения Fermi во время суперкомпьютерной конференции SC09.

SC09 будет проходить на следующей неделе, с 17 по 19 ноября в Портленде, штат Орегон. Это будет вторая демонстрация нового потокового процессора Fermi. Первая проходила в сентябре, во время GTC, при этом тогда карта была основана на предварительной версии чипа Fermi, а печатная плата имела ряд незавершённостей.

Во время SC09 будут показаны демонстрации, использующие мощь нового поколения архитектуры CUDA. Компания отмечает, что процессоры Tesla на базе чипа Fermi предоставляют тот же уровень производительности, что и центральные процессоры при 1/20 энергопотребления и 1/10 стоимости.