Новости про CUDA

NVDIA обещает 10% прирост производительности CUDA благодаря LLVM

Разработчик микропроцессоров, компания NVIDIA, обновила CUDA библиотеку базовых классов для объектно-ориентированного GPGPU программирования, включив в неё для увеличения производительности низкоуровневую виртуальную машину — low level virtual machine (LLVM).

В прошлом году компания объявила о значительных изменениях в их проприетарном программном фреймворке CUDA, а несколько дней назад выпустила первую версию изменения, которое включает компилятор LLVM. По утверждению NVIDIA, LLVM обеспечит «постоянное 10% ускорение в производительности приложений».

Кроме того, что NVIDIA теперь восхваляет мощь LLVM компилятора, фирма также предлагает виртуальный профилировщик, который поможет программистам оптимизировать их код. Суть в том, что программирование для GPGPU в большинстве случаев требует значительных оптимизаций, чтобы выжать каждую последнюю каплю скорости из GPU.

Кроме LLVM компания расширила библиотеку обработки сигналов. Обычно самостоятельный цифровой сигнальный процессор используется исследователями для симуляции определённых нагрузок, но с растущей библиотекой обработки сигналов некоторые нагрузки могут быть запущены на графической платформе NVIDIA с включённым CUDA.

Но пока NVIDIA наслаждалась популярностью CUDA в исследовательском сообществе, на горизонте появился серьёзный конкурент в лице OpenCL — открытого языка GPGPU вычислений. Тем не менее, NVIDIA утверждает, что им абсолютно безразлично какой именно язык используют программисты, до тех пор, пока они используют их графические платформы, продвигая CUDA в качестве отличного способа улучшения продаж GPU продуктов компании.

Книга «Технология CUDA в примерах» стала доступна на русском языке

На русский язык переведена книга Джейсона Сандерса и Эдварда Кэндрота «Технология CUDA в примерах: введение в программирование графических процессоров» с предисловием Джека Донгарра.

Книга написана двумя старшими членами команды по разработке программной платформы CUDА. Новая технология представлена в ней с точки зрения программиста. Авторы рассматривают все аспекты разработки на CUDA, иллюстрируя изложение работающими примерами. После краткого введения в саму платформу и архитектуру CUDA, а также беглого обзора языка CUDA С, начинается подробное обсуждение различных функциональных возможностей CUDA и связанных с ними компромиссов. Вы узнаете, когда следует использовать то или иное средство и как писать программы, демонстрирующую поистине выдающуюся производительность.

Издание предназначено для программистов, а также будет полезно инженерам, научным работникам и студентам вузов.

Уже в продаже.

NVIDIA выпустили новую версию PhysX 3.0

Сегодня компания NVIDIA представила новую версию физического движка PhysX, который уже доступен для зарегистрированных пользователей.

По заявлению NVIDIA, PhysX был переписан полностью. Это было необходимо для повышения производительности поддержки большого количества игровых устройств. Выход PhysX для планшетов и смартфонов также не может сильно удивить пользователей. Ведь это было объявлено еще во время анонса PhysX SDK 3.0, к тому же NVIDIA уделяет этому рынку очень большое внимание.

В NVIDIA заверяют, что PhysX 3.0 предоставляет разработчикам поддержку лучшую поддержку игр, потоков данных, более эффективную мультипоточность и средства улучшенной поддержки визуализации.

Для бесплатной загрузки доступны пакеты PhysX 3.0 для PC, Xbox 360, PS3, Mac OS X, Linux и Android. Ну и конечно, для работы среды необходим CUDA-совместимый графический процессор NVIDIA.

Бесплатные инструменты для разработчиков от NVIDIA

Компания обновила свои инструменты для разработки и отладки приложений, попутно сделав Parallel Nsight полностью бесплатным.

NVIDIA всегда уделяла большое внимание инструментам разработки приложений для своих графических и неграфических решений, и хотя со временем их набралось даже несколько пугающее количество, компания старается поддерживать их все в актуальном состоянии, исправляя ошибки и добавляя новые возможности.

Новая версия 1.5.1 набора инструментов разработки и отладки графических и GPGPU-приложений в среде Microsoft Visual Studio Parallel Nsight в сравнении с предыдущим релизом обзавелась поддержкой последних графических процессоров GeForce 400/500 серий, совместимостью с CUDA Toolkit 3.2, повышенной стабильностью работы в системе с несколькими графическими процессорами, поддержкой предварительно скомпилированных шейдеров DirectX; также был исправлен ряд ошибок и улучшено быстродействие в целом.

Но главным подарком разработчикам, в прямом смысле слова, стал перевод профессиональной редакции Parallel Nsight в бесплатный продукт. Экономия вышла весьма значительной, раньше за одно рабочее место пришлось бы заплатить до USD 349. Так что все желающие поразить мир с помощью технологий NVIDIA и технологий в целом могут регистрироваться на сайте NVIDIA для разработчиков и загрузить дистрибутив и всё необходимое для него. Предварительно рекомендуется ознакомиться с системными требованиями.

Вторым обновлённым инструментом стал NVIDIA Direct3D SDK. Его новая версия 10.6 содержит обновлённые примеры реализации тесселляции с помощью процедурной геометрии в Direct3D 9 и 10, обновлена до последней версии Microsoft DirectX SDK, все примеры и инструменты переделаны под среду Microsoft Visual Studio 2008. Хотя SDK ориентирован на работу с Direct3D 10, в то время как уже больше года доступен Direct3D 11, в котором та же тесселляция реализована «штатно», он всё еще может быть интересным для разработчиков, ведь пока что говорить о поголовном оснащении аудитории оборудованием и программной поддержкой DX11 преждевременно. Загрузить последнюю версию NVIDIA Direct3D SDK можно с сайта для разработчиков (~360 Мб).

Третьим обновлённым продуктом стал плагин NVIDIA Debug Manager для Android NDK, призванный помочь в написании и отладке приложений для мобильной платформы Tegra-Android в среде Eclipse. Новая версия плагина поддерживает последние версии Android Development Tools и Android NDK 5. Загрузить дистрибутив можно с сайта компании (~5 Мб), посвящённого платформе Tegra, но для получения возможности отладки Android-приложений в привычной среде разработки в Windows, Linux или MacOS придётся совершить ряд нетривиальных действий.

Будем надеяться, что бесплатные инструменты и примеры помогут разработчикам создать новые интересные программы и игры для раскрытия мощности графических процессоров в целом и продуктов NVIDIA — в частности.

oclHashcat — взломщик паролей с использованием GPU

Забытый пароль вскоре может перестать быть проблемой. 

Развитие GPGPU-технологий осложнило жизнь системным администраторам и простым пользователям, заботящимся о защите своих данных: вскрытие пароля нормальной длины и сложности путём перебора, ранее считавшееся доступным лишь спецслужбам и группам хакеров, стало возможным почти для каждого — достаточно «натравить» на пароль современную видеокарту на базе логики AMD и NVIDIA. Программа oclHashcat, в отличие от специализированных GPGPU-утилит для вскрытия паролей баз данных и архивов RAR, является настоящим комбайном, умея подбирать хэши MD5, SHA1, NTLM, кэшированных паролей домена и паролей баз данных MySQL. Поддерживаются видеокарты как на базе AMD (OpenCL, требуется Catalyst 10.12 и ATI Stream SDK), так и NVIDIA (CUDA, требуется драйвер 260.хх и новее), программа работает в Windows и Linux.

Производительность перебора для современных карт составляет:

  • GeForce GTX 480: 1041 M c/s
  • GeForce GTX 580: 1217 M c/s
  • Radeon HD 5870: 1211 M c/s
  • Radeon HD 6970: 1575 M c/s

Интересно, что программа умеет использовать и несколько GPU одновременно в системах SLI/Crossfire (до 16, по заявлениям авторов). Будучи основанной на коде Hashcat, к программе могут подключаться словари аналогичного формата для дополнительного ускорения перебора. Лишь сложный консольный интерфейс отпугнёт желающих восстановить свой забытый пароль или узнать чужой.

Бета-драйверы NVIDIA 260.19.26 для Linux и драйвер CUDA 3.2 для MacOS

Обновление драйверов для альтернативных операционных систем.

NVIDIA опубликовала следующую предварительную версию драйверов для Linux за номером 260.19.26. Об изменениях не сообщается, все желающие могут их поискать, скачав дистрибутив с FTP сайта по ссылкам ниже. Поддерживаются видеокарты GeForce/Quadro на базе NV40 и более новых архитектур.

Также обновился драйвер CUDA для видеокарт NVIDIA в компьютерах Apple Mac. Версия 3.2.17 поддерживает, как следует из названия, последнюю версию CUDA API, а также новые видеокарты Quadro 4000 for Mac. Загрузить драйвер для MacOS X 10.6.5 можно с сайта NVIDIA (~15 Мб).

Релиз CUDA Toolkit 3.2

Встречайте новую версию CUDA — официально.

После двухмесячного тестирования на кошечках программистах NVIDIA выпустила финальную версию пока что самого успешного GPGPU API CUDA 3.2. Об изменениях в новой версии CUDAуже писалось неоднократно, так что желающие опробовать её в деле могут сразу загрузить всё необходимое с сайта NVIDIA для разработчиков.

Одновременно вышли и новые отладочные драйверы видеокарт для разработчиков, традиционно, более новой версии, чем драйверы для конечных пользователей. Загрузить новые драйверы для основных платформ можно по ссылкам ниже:

Aiseesoft Total Video Converter с поддержкой CUDA

Еще один продукт, ускоряющий работу с видео при помощи CUDA.

Компания Aiseesoft Studio снабдила GPU-ускорением через NVIDIA CUDA свои продукты для работы с видео, включая флагманский продукт Total Video Converter. Разработчик приводит некоторые данные о приросте производительности в результате использования CUDA на операциях преобразования видео из одного формата в другой:

Обещается шестикратное ускорение операций над четырёхъядерным процессором Intel Core 2 при использовании по нынешним меркам весьма скромной видеокарты GeForce 9600 GT. Поддерживаются все графические процессоры NVIDIA с поддержкой CUDA, включая c CUDA Compute Capability 1.0 (G80), что редкость.

Оценить Total Video Converter 3 с поддержкой CUDA можно посредством пробной версии, преобразующей первые пять минут видеофайла. Полная версия продаётся через сайт компании за 35 долларов.

NVIDIA официально представила самое мощное DirectX 11 решение — GeForce GTX 580

Видеокарта выполнена по 40 нм техпроцессу и на текущий момент является самой мощной одночиповой видеокартой с поддержкой DirectX 11.

Сердцем карты выступает чип GF110:

  • 512 ядер CUDA;
  • 64 TMU.

Остальные характеристики таковы:

  • 384-разрядная шина памяти;
  • 1536 Мбайт GDDR5 видеопамяти;
  • тактовая частота GPU — 772 МГц;
  • частота шейдерного массива — 1544 МГц;
  • эффективная частота памяти — 4008 МГц;
  • шина PCI-Express 2.0;
  • TDP карты составляет 244 Вт;
  • видеовыходы представлены парой DVI и одним mini-HDMI;
  • поддерживаемые технологии: SLI, CUDA, PhysX и 3D Vision Surround;
  • поддерживаемые API: DirectX 11, OpenGL 4.1.

NVIDIA официально заявляет о 30% приросте производительности по сравнению с оригинальной GeForce GTX 480. А прирост производительности в «старых» играх с использованием DX9 и DX10 достигает 62 процентов. Среди таких старых игр значится, кстати, и StarCraft II. Разумеется, не обошли вниманием и предстоящий хит в лице Crysis 2 — по заявлению Cevat Yerli, президента и CEO компании Crytek, для спасения Нью-Йорка суперсолдату недостаточно будет наносьюта, потребуются также лучшие из имеющихся технологий, то есть именно те, которые предоставляет GeForce GTX 580!

Рекомендованная стоимость карты GeForce GTX 580 для России 17 999 рублей, хотя партнеры компании не стесняются запрашивать за свои изделия и 590 долларов! В розничной торговле появление карт ожидается после 20 ноября.

Среди официальных партнеров NVIDIA по выпуску GTX 580 значатся такие компании, как: ASL, ASUS, Colorful, ECS, EVGA, Gainward, Galaxy, Gigabyte, Innovision 3D, Jetway, Leadtek, MSI, Palit, Point of View, PNY, Sparkle, Zotac и другие.

Фактически, мы просто наконец-то получили ту самую Fermi, которую ждали еще весной. GF110 честнее было бы назвать GF100b, поскольку никаких отличий от источника в спецификациях не замечено, даже не добавлена ожидавшаяся поддержка передачи звука DTS-HD и Dolby TrueHD 7.1 через HDMI, появившаяся в GF104. Разъём DisplayPort по-прежнему отсутствует в референсном дизайне, хотя уже несколько поколений как стал стандартом для видеокарт Quadro. Настоящим событием является новая система охлаждения, которая обещает приемлемый уровень шума при охлаждении «топовой» видеокарты. Спуск этой системы в средний сегмент позволит создать по-настоящему малошумные видеокарты — если только цена решения не будет превышать стоимость остальной видеокарты.

А пока поприветствуем одночипового чемпиона этого года — во всяком случае до выхода решений следующего поколения, от AMD или NVIDIA.

CPU против GPU: новый раунд

Плюс прогноз применимости GPGPU для суперкомпьютеров.

В этом году IBM публиковала два исследования, в которых сравнивалась производительность CPU и GPU в математических задачах. В первом случае центральный процессор IBM Power 7 опередил GeForce GTX 285, причём двухпроцессорная система на базе Intel Xeon показала лишь чуть меньший результат, во втором испытании модуль NVIDIA Tesla 2050 опередил всех соперников, но разрыв в производительности составил чуть более двухкратного для Power 7 и не дотянул до четырёхкратного над Xeon. И вот появилось новое исследование, от университетов Оксфорда и Ворвика, Великобритания, в котором системам на базе Xeon были противопоставлены модули Tesla разных поколений и пара «бытовых» видеокарт.

Хотя для исполнения на CUDA использованный тест NAS LU пришлось портировать с Fortran на C, результат представляет немалый интерес. Всего один четырёхъядерный процессор Xeon X5550, работающий на частоте 2,66 ГГц, смог показать лучший результат, чем GeForce 9800 GT с теоретической производительностью 500 GFLOPS. GeForce 8400 GS из-за ограниченного буфера памяти (256 Мб) смогла выполнить лишь один этап из трёх и показала ужасную производительность. Модули Tesla оправдали свою репутацию, но отрыв в производительности не превышал 10-кратного. Любопытно, что включение режима защиты памяти ECC на Tesla 2050 стоило ей 20 % производительности, в том числе из-за потери 16 % объема видеопамяти на контрольные суммы.

Британские учёные не могли хотя бы частично не подтвердить свою репутацию. На основе полученных данных они попытались спрогнозировать производительность суперкомпьютерных систем на базе Tesla, сравнив их предсказанную производительность с хорошо себя зарекомендовавшими системами BlueGene /P от IBM.

Согласно предсказанию, традиционный подход к построению суперкомпьютеров выиграет по соотношению фактической производительности на Ватт, и в конечном итоге — по быстродействию вообще. Впрочем, GPU уже сделали заявку на лидерство среди суперкомпьютеров, посмотрим, что сможет на неё ответить та же IBM.