Новости про Fermi и GPGPU

NVIDIA выпустила новый CUDA Toolkit 3.1

Разработчики, использующие мощности GPU для ускорения приложений, могут скачать и использовать новую версию CUDA Toolkit, которая доступна для Windows, Mac OS и Linux.

Пакет CUDA Toolkit 3.1 включает следующие изменения и дополнения:

  • GPUDirect позволяет другим устройствам прямой доступ к памяти CUDA;
  • поддержка параллелизма в 16 потоков позволяет использовать одновременно до 16 различных ядер на графических процессорах архитектуры Fermi;
  • runtime-драйвер совместимости приложений позволяет универсально использовать драйверы CUDA API с CUDA C Runtime и математическими библиотеками с помощью буфера обмена и миграции;
  • добавлены новые возможности языка CUDA C/C++:
    • поддержка printf() в коде устройства;
    • поддержка функций указателя и рекурсии облегчит портирование многих существующих алгоритмов для Fermi GPU;
  • Unified Visual Profiler теперь поддерживает CUDA C/C++ и OpenCL, а так же включает поддержку трассировки CUDA драйверов API;
  • математические библиотеки увеличили производительность, в часности:
    • улучшенна производительность отдельных трансцендентных функций log, pow, erf, и gamma;
    • значительно улучшена производительность для двойной точность FFT при исполнении на архитектуре графических процессоров Fermi для 2^N преобразований;
    • потоковый API теперь поддерживается в CUBLAS для перекрытия операций копирования и вычисления;
    • оптимизированы CUFFT Real-to-complex (R2C) и complex-to-real (C2R) для 2^N размеров данных;
    • улучшена производительность для GEMV и SYMV подпрограмм в CUBLAS;
    • оптимизирована реализация вычислений с двойной точностью по принципу разделения и взаимного использования программ для архитектуры Fermi;
  • новые и обновленные примеры SDK кода демонстрирует использование:
    • функции указателей в ядрах CUDA C/C++;
    • буфера обмена OpenCL/Direct3D;
    • Hidden Markov Model в OpenCL;
    • пример Microsoft Excel GPGPU, показывающий как запускать функции Excel на GPU.

Скачать новую версию CUDA Toolkit вы можете на официальной странице.

Intel утверждает, что современные видеокарты NVIDIA всего лишь в 14 раз быстрее Core i7-960

Компания Intel на основе внутренних тестов сделала заявление, что её топовые процессоры всего лишь в 14 раз медленнее, чем видеокарты компании NVIDIA . Цель этого - опровергнуть заявления NVIDIA, что её графические процессоры превосходят процессоры Intel до 100 раз. 

В документе под названием "Debunking the 100x GPU vs CPU Myth"  Intel предполагает, что в некоторых случаях NVIDIA GeForce GTX 280 до 14 раз быстрее, чем Intel Core i7-960. Intel утверждает, что в среднем величина преимущества составляет 2,5 раза. Естественно, что NVIDIA тут же опубликовала опровержение этого.

В блоге, пресс-секретарь Andy Keane отметил, что Intel использовала не последнее поколение GPU от NVIDIA, правильнее было сравнивать с видеокартами семейства Fermi. Keane также отмечает, что Intel скорее всего запускала не оптимизированный код на GTX 280, и не понятно, как они сопоставили производительность GPU и центрального процессора.

Cотрудник NVIDIA признал, что не все приложения работают в 100 раз быстрее на GPU, но он привел в пример многих разработчиков, которые добились этого. По крайней мере, семь разработчиков заявили о преимуществе свыше 100 раз, и один заявил о цифре 300 раз.



Gainward начала вместе со своими картами поставлять ПО Super LoiLoScope

Как Zotac и MSI ранее, Gainward приняла решение о комплектации своих карт с поддержкой CUDA редактором видеороликов LoiLoScope от японской компании LoiLo, использующим вычислительные средства видеокарт NVIDIA.

Благодаря партнёрскому соглашению между Gainward и LoiLo, в комплекте с видеокартами серии GeForce GTX 400 будет включена версия Super LoiLoScope с ограничением по времени работы, а также специальная 25-процентная скидка на покупку полноценной версии (LoiLoScope стоит 88 $).

Super LoiLoScope поддерживает NVIDIA CUDA и использует мощности видеокарт практически во всех задачах: от просмотра видео до его редактирования и кодирования. В некоторых задачах прирост по сравнению с расчётами средствами центрального процессора достигает 10-кратной отметки.

Линейка видеокарт Gainward GF100 с LoiLoScope в комплекте должна появиться в европейских магазинах на этой неделе.

Релиз CUDA Toolkit 3.0

К выходу Fermi — новая версия инструментов CUDA для разработчиков.

В CUDA 3.0 сделаны значительные изменения:

  • поддержка новой архитектуры Fermi;
  • поддержка классов C++;
  • взаимодействие CUDA и OpenCL с Direct3D 9/10/11 и OpenGL;
  • возможность использования в одном приложении и CUDA Runtime, и CUDA Driver API.
  • многократное повышение производительности при отладке в cuda-dbg и аппаратное ускорение отладки для CUDA Driver API на видеокартах с архитектурой Fermi;
  • утилита CUDA Memory Checker для поиска ошибок выравнивания данных и переполнения памяти;
  • ряд важных улучшений в OpenCL.

Загрузить CUDA SDK, документацию и отладочные драйверы для Windows, Linux и MacOS можно со специальной страницы сайта NVIDIA для разработчиков.

NVIDIA обновила характеристики процессоров Tesla нового поколения

NVIDIA тихо опубликовала спецификации своих продуктов семейства Tesla нового поколения, основанных на чипе Fermi.

Довольно неожиданной новостью стало то, что флагманский процессор Tesla C2070, как, впрочем, и Tesla C2050 будут иметь урезанное количество шейдерных процессоров: 448 вместо 512. Таким образом, NVIDIA отключит 2 из 16 вычислительных блоков чипа Fermi.

Как и сообщалось ранее, NVIDIA Tesla C2050 и C2070 — это одночиповые карты с объёмом GDDR5-памяти 3 Гб и 6 Гб (частоты от 3,6 до 4 ГГц) соответственно (при включении ECC, объём доступной памяти уменьшается до 2,625 Гб для C2050 и до 5,25 Гб для C2070). Производительность процессоров в вычислениях двойной точности составляет 520—630 гигафлоп/с.

Ранее предполагалось, что процессоры Tesla нового поколения будут иметь 512 шейдерных процессоров, ведь чип обладает именно таким количеством параллельных вычислительных блоков. Однако, компания решила урезать карты по каким-то неизвестным причинам. Возможно, в целях уменьшения количества отбракованных кристаллов или же сохранения приемлемого уровня энергопотребления.

Стоимость процессоров Tesla C2050 и C2070 составит в рознице 2500 $ и 4000 $ соответственно. Выход продуктов намечен на вторую четверть следующего года.

NVIDIA снова покажет процессор Tesla на базе Fermi

Компания NVIDIA сообщила, что ею будет показан в работе новый потоковый процессор Tesla на базе чипа нового поколения Fermi во время суперкомпьютерной конференции SC09.

SC09 будет проходить на следующей неделе, с 17 по 19 ноября в Портленде, штат Орегон. Это будет вторая демонстрация нового потокового процессора Fermi. Первая проходила в сентябре, во время GTC, при этом тогда карта была основана на предварительной версии чипа Fermi, а печатная плата имела ряд незавершённостей.

Во время SC09 будут показаны демонстрации, использующие мощь нового поколения архитектуры CUDA. Компания отмечает, что процессоры Tesla на базе чипа Fermi предоставляют тот же уровень производительности, что и центральные процессоры при 1/20 энергопотребления и 1/10 стоимости.

Cisco работает над веб-сервером на основе GPU

Сфера применения параллельных вычислений общего назначения средствами видеокарт может быть весьма обширной и, в том числе, затрагивает область сетевого оборудования.

Сэнфорд Рассел, главный управляющий подразделением CUDA в NVIDIA, сообщил, что компания Cisco заинтересовалась ускорителем Fermi, обладающим 512 вычислительными ядрами, для создания веб-сервера на его основе, который смог бы обслуживать одновременно тысячи людей.

К сожалению, подробностей по этому поводу пока нет. И нам трудно судить, для каких именно задач будут использоваться карты Fermi. Безусловно, расчёты средствами видеокарт не универсальны и не могут заменить функции центральных процессоров. Вероятно, Fermi будет выполнять некие специализированные задачи, вроде маршрутизации, шифрования и анализа сетевого трафика.