Анализ фактов и слухов об NV20

13.10.2000


Сразу предупреждаем, что все сказанное в этой статье до официального анонса следующего продукта NVIDIA является предположением. Однако это не слепое угадывание, а анализ некоторых имеющихся данных, объективных возможностей технологии, на основе которых можно сделать вполне достоверный прогноз.

Скорость заполнения и пропускная способность памяти

Эти два фактора традиционно являются решающими при определении реальной производительности ускорителя. Однако в последнем поколении пропускная способность памяти является настолько узким местом, что fillrate (или скорость заполнения) уже практически ни на что не влияет. Так, например, у сегодняшнего лидера индустрии – GeForce2 GTS примерно 65% потенциальной производительности не реализуется из-за того, что даже самой мощной на сегодняшний день памяти типа Double Data Rate (DDR) SDRAM. Для борьбы с этой проблемой в будущих ускорителях недостаточно просто устанавливать более производительную подсистему памяти: мощность ускорителей растет во много раз быстрее, чем мощность памяти. Необходимо разрабатывать более экономичную архитектуру именно самого ускорителя, которая даст возможность, при имеющейся памяти, получить многократно большую производительность. Недавно на Ф-Центре {link}прошла информация об используемой в NV20 технологии удаления скрытых поверхностей, которая позволит избежать текстурирования скрытых пикселей - HSR (Hidden Surface Removal). Дело в том, что ускорители традиционной архитектуры имеют существенный изъян – эффект, называемый overdraw. Когда ускоритель обрабатывает пиксели, реально не отображаемые на экране (скажем, стена за объектом прорисовывается полностью, хотя объект часть ее закроет). В результате, ускоритель и память работают только на 20-30% процентов своих потенциальных возможностей. NV20 будет лишен этого недостатка, в результате его производительность только за счет этого возрастет в 2-4 раза, в зависимости от приложения.

Сообщается также, что чип будет иметь 4 конвейера и работать на частоте 300МГц. Напомню, что GeForce 2 GTS также имеет 4 конвейера, но работает на частоте 200МГц. Т.е. скорость текстурирования возрастет еще в полтора раза.

Остается только определиться с частотой устанавливаемой на ускоритель памяти. Почти наверняка, это будет DDR SDRAM, работающая на частоте 250-300МГц. Более чем вероятно появления и удешевленной модели NV20, оснащенной 166-200МГц памятью.

Производительность блока T&L

Этот параметр определяет, с каким количеством треугольников в играх мы сможем комфортно играть.

По многочисленным признакам можно практически однозначно определить производительность блока T&L у NV20. Например, он будет использоваться в X-Box, спецификации которой, в том числе и графические, уже объявлены. Так, при частоте чипа в 300МГц, обещается производительность в 150 миллионов треугольников в секунду. Значит, при частоте 200МГц, соответственно, 100 миллионов треугольников в секунду. Для сравнения: производительность T&L самых мощных на сегодня ускорителей составляет не более 25-30 миллионов полигонов в секунду. То есть, можно говорить о многократном повышении скорости T&L, который без труда сможет тянуть игры с 200-300 тыс полигонов в кадре. Сегодняшние игры достигли уровня лишь 5-20 тыс полигонов в кадре. Однако, весной 2001 года как раз ожидается появление игр, ориентированных на использование высокопроизводительных аппаратных блоков T&L, и, следовательно, имеющие радикально более высокую геометрическую детализацию (100-200 тыс полигонов в кадре).

Предполагается, что аппаратный блок T&L будет программируемым. Т.е. разработчики (“игроделы”) смогут без труда подстроить работу ускорителя под свои нужды, а не подстраиваться самим.

Пока нет данных, какое количество источников света сможет обрабатывать новый GPU, и насколько сильно падает скорость от увеличения их количества. Думаю, реально ожидать 32-64 источников света в сцене. Это очень много, учитывая, что все современные ускорители с T&L держат не больше 8 источников и производительность с 6-8 источниками света оставляет желать много лучшего.

Новые возможности

Кроме количественных показателей, рассмотрим также качественные, которые обуславливаются новыми возможностями и функциями ускорителя.

Прежде всего, не вызывает сомнения дальнейшее развитие пиксельных шейдеров, которые впервые появились в GeForce256. Это дает возможность применять красивые попиксельные эффекты, такие как честное попиксельное освещение/затемнение (а не подделку под него – lightmap’ы или грубую замену – вершинное освещение), рельеф и многое другое. Поддержка шейдеров заложена в DirectX 8, поэтому, вероятнее всего, эти функции станут стандартом для следующего поколения ускорителей, а, значит, и для игр.

Также важнейшей функцией являются трехмерные текстуры, позволяющие делать, например, разрушаемые стены, ломающиеся объекты и прочее. В общем можно будет не только задать рисунок поверхности объекта, но и целиком всего внутреннего пространства. Вероятно, это будет основной “фичей” ускорителей следующего поколения.

Понятно, что 3D-текстуры занимают во много раз больше памяти, чем обычные, поэтому NVIDIA уже разработала и объявила метод их компрессии.

Скорее всего, будет сильно доработана анизотропная фильтрация. Например, если на каждом конвейере будет установлено по 3-4 блока текстурирования, можно будет использовать анизотропную фильтрацию на основе 24-32 текстурных сэмплов (для сравнения: у GF256 – 8 сэмплов, у GF2 – 16 сэмплов).

Установка 4-х блоков текстурирования на каждый конвейер позволит также без потерь в скорости накладывать на пиксель до 4-х текстур, т.е. бесплатное квадротекстурирование.

Будет и поддержка мультисэмплинга, позволяющего делать более мощный анти-алиасинг, подобный тому, который используется в Voodoo 5 5500, а также многие другие кинематографические эффекты вроде размытия движения (Motion Blur), поля зрения (Depth of Field) и пр. По слухам, называться это будет A-Buffer, по аналогии с подобной технологией 3dfx T-Buffer.

Это те возможности, которые с большой степенью вероятности будут поддерживаться в NV20. Не исключена также поддержка более “продвинутого” метода компрессии текстур – FXT1. Он разработан 3dfx и является открытым для всех. Однако, поддержка NVIDIA инициатив конкурента крайне маловероятна.

О других возможностях можно только гадать. Возможно, это скелетная анимация, поддержка и ускорение вокселей, наложение рельефа методом EMBM, а возможно и что-то совершенно новое, ранее не применявшееся, о чем пока нет даже слухов.

Итог: чего ожидать от NV20

Прежде всего NV20 даст повышение реальной скорости текстурирования в 2-4 раза, что позволит использовать высококачественное полноэкранное сглаживание даже в высоких разрешениях.

Анизотропная фильтрация на основе 24-32-х сэмплов значительно повысит четкость (детализацию) удаленных текстур. Что весьма положительно отразится на качестве графики даже в сегодняшних играх.

Мощный блок аппаратного T&L позволит играть в игры с огромным количеством полигонов в сцене (которые должны уже появиться примерно в тоже время, что и NV20) и это, вместе с эффектами попиксельного освещения/затемнения и рельефом, позволит сделать большой шаг в сторону фотореалистичной графике в играх.

Радикально новые функции, вроде 3D-текстур и вокселей, скорее всего, получат широкую поддержку в играх не раньше чем через год-полтора после выхода NV20, что, конечно, не означает, что они не нужны. Хотя поколения 3D-акселераторов и сменяются очень быстро, полтора-два года ускоритель все-таки остается на рынке и справляется, хоть и не в максимальном качестве (имеются в виду максимальные настройки игры при больших разрешениях), с последними играми.

Предположительные спецификации

  • Fillrate 800-1200 миллионов пикселей в секунду и 800-1200 миллионов текселей в секунду без мультитекстурирования, 1600-2400 миллионов текселей в секунду в режиме битекстурирования и 3200-4800 миллионов текселей в секунду в режиме квадротекстурирования;

  • 4-х конвейерная архитектура, по 4 блока текстурирования на каждом конвейере;

  • техпроцесс 0.13мкм;

  • частота ядра от 200 до 300МГц;

  • количество транзисторов в чипе: около 50 миллионов;

  • память DDR SDRAM на частоте от 200 до 300 МГц;

  • технологии удаления скрытых поверхностей HSR (Hidden Surface Removal);

  • производительность аппаратного блока T&L от 100 до 150 миллионов полигонов в секунду;

  • аппаратная установка до 32-64-х источников света;

  • бесплатное квадротекстурирование (4 текстуры на пиксель);

  • пиксельные шейдеры;

  • поддержка 3D-текстур и алгоритма их компрессии;

  • полная поддержка DirectX 8.



Игорь Епимахов a.k.a. Sboy (sboy2@mail.ru)

Особая благодарность за помощь в подготовке статьи
Unwinder'у и Bishop



Обсудить в конференции