Новости про GPGPU

NVIDIA CUDA может работать на любом GPU благодаря SCALE

У индустрии появилась очередная попытка сломать доминирование NVIDIA в вопросах использования расчётах на GPU. Как известно, отрасль захватила CUDA, которая жёстка связана с оборудованием NVIDIA. Ранее уже осуществлялись попытки проведения CUDA-расчётов на GPU AMD. Эта технология получила названием ZLUDA, но теперь у неё есть конкурент под названием SCALE.

Исполнительный директор Spectral Compute Михаэль Зондергаард выражает уверенность, что GPU должны использовать открытое окружение, как современные CPU, при этом все платформы должны быть взаимосвязаны. Его разработка SCALE выступает мостом, заполняя совместимость между CUDA и другими производителями аппаратного обеспечения, расширяя лимиты существующих рынков. По словам Михаэля, SCALE — это набор инструментов GPGPU, подобный NVIDIA CUDA, использующий бинарники не-NVIDIA GPU для компиляции CUDA, исключая необходимость в слое трансляции.

Инструменты SCALE разрабатывались семь лет. Они не полагаются на код NVIDIA, но используют свой набор, совместимый с CUDA, что делает SCALE легко адаптируемым для различных платформ.

Компания NVIDIA известна ревностным отношением к своим разработкам. Ранее она уже предупреждала аналогичные платформы о нарушениях, не позволяя своим продуктам лишаться статуса эксклюзивности. Посмотрим, как компания будет реагировать в этот раз.

NVIDIA готовит A100 с жидкостным охлаждением

В Сети появилась фотография нового варианта ускорителя A100 Tensor Core от NVIDIA, который имеет водяную систему охлаждения.

Ускоритель A100 основан на GPU GA100 Ampere. Он является предшественником ускорителя для ЦОД модели H100 Hopper. Таким образом, речь идёт о новом варианте с жидкостным охлаждением модели A100 PCIe, выпущенной год назад. Это не вариант SXM, используемый для систем HGX/DGX A100.

Видеоускоритель NVIDIA A100

Стоит отметить, что жидкостное охлаждение в серверах не принято, и сейчас мы наблюдаем от NVIDIA экстраординарный шаг. Зато данное решение обладает тонкой конструкцией со штуцерами для подключения охлаждения, расположенными на задней стенке.

Водяное охлаждение ускорителя A100 в открытом виде
Жидкостное охлаждение A100 в корпусе

Стоит отметить, что жидкостное охлаждение для ускорителей A100 уже широко применяется, однако для этого требуется ручная замена массивного воздушного охлаждения. Пассивное воздушное охлаждение часто оказывается неэффективным, а потому NVIDIA и решила применять водяное охлаждения.

NVIDIA скоро изготовит мультичиповый GPU Hopper

В Сети появились слухи, что в скором времени NVIDIA изготовит новый GPU под именем Hopper. Тут важно отметить, что это не игровое решение, и вы не увидите карту GeForce RTX 4080 Ti на его основе. Тем не менее, это инновационное решение.

В Twitter, в аккаунте Greymon55, появилось шифрованное сообщение с аббревиатурой «NHWTOS», которая через пару часов была расшифрована. Она гласит «NVIDIA's Hopper Will Tape Out Soon», то есть «NVIDIA Hopper скоро будет отпечатан».

Эта новая архитектура примечательна тем, что в ней используется мультичиповый модуль, вместо традиционного монолитного. И хотя этот процессор предназначен для суперкомпьютеров, нам он интересен по причине того, что его опыт может быть применён на поколении Lovelace или даже обновлённой версии Ampere, который планируются в 2024 и 2022 годах соответственно.

Переход от монолитной структуры GPU к мультичиповой

Мультичиповая технология в Hopper аналогична той, что использует AMD в своих центральных процессорах Zen и графических процессорах RDNA. Она изготавливает свои процессоры на TSMC, и новый чип NVIDIA также должен быть изготовлен на TSMC по 5 нм нормам. Ожидается, что чиплет из двух ядер GPU предложит в сумме 288 потоковых мультипроцессоров, что в 2,6 раза больше, чем у GPU NVIDIA A100. Кроме того, Hopper будет более энергоэффективным, чем Ampere. Считается, что его энергетическая эффективность вырастет в 3 раза.

Как обычно, к подобным слухам следует относиться с большой осторожностью и скептицизмом. Тем более, что они получены из неизвестных источников.

Первый китайский 7 нм GPU поступил в массовое производство

Компания Shanghai Tianshu Intellectual Semiconductor Co. (Tianshu Zhixin) объявила о том, что вплотную приблизилась к началу «массового производства и поставке» ускорителя Big Island, первого собственного графического ускорителя, изготовленного по 7 нм нормам.

В январе компания сообщала, что ускоритель BI, предназначенный не для игр, а для расчётов, будет производиться по неустановленному 7 нм техпроцессу в пакете CoWoS. Теперь Tianshu Zhixin официально подтвердила, что речь идёт о TSMC и технологии FinFET.

Ускоритель расчётов Big Island

Что касается спецификаций BI и его возможностей, то разработчики отметили, что он обладает «почти вдвое большей производительностью, по сравнению с продукцией основных изготовителей» при меньшем энергопотреблении и более привлекательном соотношении цена/производительность. Правда, цена пока не называется. Равно как и не сообщается о сроках поставки, как не ясно и то, будет ли продукт доступен по всему миру или только в Китае.

Спецификации ускорителя BI

По всей видимости, Tianshu Zhixin столкнулась с той же проблемой, что и все остальные технологические компании — дефицитом производственных мощностей.

Карта расширения Big Island

Китай выпускает свой первый GPU для ЦОД

Shanghai Tianshu Zhixin Semiconductor Co., более известная как Tianshu Zhixin, объявила о выпуске своего GPGPU Big Island (BI). Он стал первым китайским GPGPU, предназначенным для средств ИИ и HPC, а также для прочих отраслей, включая образование, медицину и безопасность.

Процессор BI содержит 24 миллирда транзисторов и основывается на собственной архитектуре. Чип изготовлен по 7 нм технологии в пакете 2.5D CoWoS. Кто именно производит чип, не указывается, но учитывая технологические возможности, это явно TSMC.

GPGPU Big Island от Tianshu Zhixin

Процессор поддерживает различные форматы работы с плавающей запятой, включая FP32, FP16, BF16, INT32, INT16 и INT8. О производительности BI Tianshu Zhixin сообщила мало. Сказано, что в режиме FP16 производительность составляет 147 терафлопс. Для сравнения, NVIDIA A100 и AMD Instinct MI100 обеспечивают в FP16 производительность на уровне 77,97 и 184,6 терафлопс соответственно. Правда, у NVIDIA A100 ещё есть ядра Tensor, которые выдают 312 терафлопс.

NVIDIA отказывается от бренда Tesla

Компания NVIDIA использовала бренд Tesla для своих продуктов GPGPU начиная с 2007 года.

На прошлой неделе, когда фирма представила графический процессор для ЦОД с кодовым именем Ampere, она назвала его A100. Никакой отсылки к «Tesla». Это слово просто исчезло из официальных сообщений компании.

Ускоритель NVIDIA Tesla V100

Немецкий сайт Heise сообщает, что крупнейший производитель дискретных видеоускорителей решил отказаться от бренда Tesla, чтобы избежать возможных недоразумений и путаницы с одноимённой компанией-производителем электрокаров Илона Маска. Сообщается, что NVIDIA провела изменения в прошлом году, когда осуществила ребрендинг ускорителей на основе GPU Turing, заменив «Tesla T4» на «NVIDIA T4».

О возможных юридических проблемах ничего не сообщается. Кроме того известно, что компании активно сотрудничали друг с другом по обеспечению автопилота на электрокарах Tesla.

AMD хочет реализовать DLSS через DirectML

Одной из главных особенностей GPU Turing от NVIDIA, наряду с трассировкой лучей, стало наличие ядер Tensor, которые используются для различных технологий на базе искусственного интеллекта, в частности, сглаживания.

Это сглаживание DLSS даёт весьма неплохой результат, практически не влияя на производительность. В недавнем интервью менеджер AMD по маркетингу продуктов GPU Адам Козак заявил, что компания ведёт эксперименты с расширенной версией Microsoft DirectML, чтобы получить эффект, подобный DLSS.

При этом Radeon VII демонстрирует превосходный результат. По мнению Козака, это значит, что эффекта DLSS можно достичь посредством функций GPGPU.

Менеджер по маркетингу продуктов AMD GPU Адам Козак

Он сообщил, что «пока радоваться рано, поскольку AMD лишь экспериментирует с DirectML. Пока это теоретические работы, но они могут быть реализованы на практике довольно быстро. Козак добавил, что новый функционал сглаживания стоит ожидать уже в декабре, вместе с новой версией драйвера Adrenalin, а если всё получится на Navi — то даже раньше».

Кроме DLSS Козак также рассказал, что в тестах трассировки, основанных на открытом исходном коде, Radeon VII значительно обошла GeForce RTX 2080. Он отметил, что именно открытые тесты стали одной из причин преимущества AMD, тем не менее, в OpenCL бенчмарке Luxmark будущий 7 нм GPU показал на 62% большую производительность, чем RTX 2080 в рендере трассировки лучей на базе GPGPU.

Энтузиасты создают открытый аналог CUDA

Разработчик GitHub с ником jgbit открыл проект с открытым исходным кодом, который назвал VUDA.

Идея этого проекта заключается в реализации аналога API NVIDIA CUDA, простого интерфейса для GPU вычислений, в мире свободного ПО.

Vulkan API

Система VUDA работает поверх уже набравшего популярность графического API Vulkan, который обеспечивает доступ к аппаратному обеспечению на низком уровне. VUDA является библиотекой C++, что означает совместимость со всеми платформами, которые имеют компилятор C++ и поддерживают Vulkan.

Пример кода для VUDA

Пока проект находится на начальном этапе, но его потенциал трудно представить, особенно, учитывая открытую лицензию. На GitHub приведен простой пример использования библиотеки, который может стать хорошим началом для будущих разработок.

Intel будет использовать встроенную графику для выявления зловредов

Компания Intel дополнила технологии Accelerated Memory Scanning и Advanced Platform Telemetry двумя новыми средствами для противостояния вредоносному ПО на аппаратном уровне.

Теперь система Accelerated Memory Scanning будет выгружать выявление атак на основе памяти на встроенную графику CPU. Согласно внутренним тестам компании, нагрузка методом GPGPU позволила снизить использование CPU с 20% до 2%.

Скан вредоносного кода

Вторая техника объединяет отслеживание и облачное машинное обучение для выявления более совершенных угроз. Когда вредоносный код размещается на жёстком диске, он может быть замаскирован или даже зашифрован. Теоретически, когда он попадает в память, его становится легче выявить.

Процесс сканирования памяти на признаки вредоносного кода обслуживается драйвером Intel и работает в так называемой цепи приложений или Ring 3. Однако возможности данного решения могут быть расширены до уровня ядра, или Ring 0. Интенсивность сканирования может быть настроена для загрузки GPU. Однако если пользователь играет в игру, сканирование может быть отложено или размещено на других незагруженных ядрах GPU.

AMD представила Vega Cube производительностью 100 терафлопс

Компания AMD не осталась в стороне современных технологических тенденций и решила присоединиться к растущему рынку систем искусственного интеллекта.

В сети появились фотографии, на которых Раджа Кодури, глава Radeon Technologies Group, держит устройство, названное Vega cube (или Куб Кодури), состоящее из 4 прототипов ускорителей на базе GPU Vega. Эти снимки были сделаны на секретном мероприятии, посвящённом новому GPU и прошедшем на прошлой неделе.

Похоже, что представлен был лишь макет суперкомпьютерного модуля. О нём сейчас очень мало информации. По данным VideoCardz этот куб будет обладать производительностью в 100 терафлопс (FP16) и будет предназначен для систем глубокого обучения. Пока неизвестно, имеет ли AMD планы по выпуску устройства. Как известно, ранее фирма уже анонсировала подобное решение Project Quantum, которое так и не было реализовано.

Как нетрудно догадаться, AMD не представила никаких сведений об устройстве. Возможно, что AMD решила ответить на технологию NVLink от NVIDIA, однако в отличие от Tesla P100, Куб будет установлен вертикально.