NVIDIA GeForce RTX 3080 video card review, part 1 / Video cards

NVIDIA GeForce RTX 3080 video card review, part 1 / Video cards


A comment on one of the main premieres of 2020 (and before the release of Zen 3 architecture central processors and Radeon accelerators on a large Navi core, perhaps the most important one), we have to start with bad news. Test samples of the new graphics cards have not yet arrived at 3DNews due to the still difficult situation in international communications. And the time for reviews with benchmarks has not come yet – they are allowed to be published not earlier than Wednesday, September 16th. Therefore, today we will restrict ourselves to the analysis of Ampere chips and product specifications based on them. Fortunately, the RTX 30 series makes a strong impression even on paper, and the updated architecture, although this time the engineers from Santa Clara focused on the growth of pure performance instead of functional innovations, also deserves detailed consideration to understand how NVIDIA managed to pump the performance so much. …

The new GPUs are really so far ahead of their predecessors in terms of characteristics, as if the golden years of Maxwell and Pascal have returned, giving an exponential increase in performance with each iteration of hardware. Then came Turing – no doubt a historic event not only for NVIDIA, but for consumer 3D graphics in general. But the consumers themselves were not too happy with the prices of video cards, which the chipmaker was able to install without looking back at AMD, which at that time was removed from the competition for the market of top-end accelerators. In addition, all the efforts of the Turing developers were aimed at expanding the rendering functions using hardware ray tracing and data processing by neural networks, and in games without ray tracing, the performance per dollar of the GeForce RTX 20 series at best has not changed compared to the evergreen Pascals. (see the first and second part of our historical testing).

GeForce RTX 30 series game accelerators in one sentence can be characterized as follows: 2.5-3 times more FP32-compatible CUDA cores, enhanced ray tracing units and tensor cores, and all this on chips with a huge number of transistors built on standards 8 nm. And most importantly, at the same price as its predecessors! Nevertheless, Ampere has interesting nuances both in architecture and purely practical properties. While the test samples of the GeForce RTX 3080 and RTX 3090 are still on the way, let’s see how the Ampere works, and if there is any reason to doubt its unconditional dominance in the gaming video card market. Whatever one may say, AMD will present its own next-generation GPUs on October 28, and it seems that this time the “red” ones are ready for real competition with NVIDIA.

⇡ #GeForce RTX 30 series

In a presentation dedicated to next-generation gaming products, NVIDIA presented three video cards: GeForce RTX 3070, RTX 3080 and RTX 3090. All of them should go on sale within the next month, and this applies not only to the reference (Founders Edition), but also to partner models that appear on store shelves at the same time. The RTX 3080 release date is September 17, the RTX 3090 is slated for the 24th, and the RTX 3070 is expected on October 15. But the main thing, of course, is what features and for what price NVIDIA will offer, discouraged by the ambiguous reaction to the GeForce RTX 20 series, especially in the face of revived competition from AMD.

From what we’ve been able to figure out, the second-gen RTX shouldn’t disappoint. At the third step of the podium, as a replacement for the GeForce RTX 2070, the chipmaker installed a video card with 5888 shader ALU (32-bit CUDA cores). And this, by the way, is 2.5 times more than that of its predecessor! It turns out that even the GeForce RTX 2080 Ti and RTX TITAN are inferior to the youngest of the new products both in CUDA-cores FP32 (4352 and 4608, respectively), and in theoretical throughput of operations on real numbers of standard precision.

Of course, this is a very crude criterion that does not take into account other components of the GPU architecture. After all, we have not yet talked about how exactly NVIDIA engineers stuffed so many cores into a second-tier graphics processor – everything here is far from being as simple as if the Turing architecture was inflated to such a size without a deep reorganization structure. Finally, as we will have time to make sure, Ampere has significantly strengthened its ray tracing units and introduced a new, more efficient Tensor Kernel mode. Until we have received test samples at our disposal, we will not categorically assert that the new GeForce RTX 3070 has sent the entire RTX 20 line, including the 2080 Ti, to the dustbin of history, but if we evaluate by the sum of the characteristics, perhaps this will happen in well-parallelized tasks. GP-GPUs, professional ray tracing devices like Blender, and of course ray tracing games where the GeForce RTX 3070 promises at 1440pperformance is 60% higher than RTX 2070.

And all this – attention – for a suggested price of $ 499! In this case, an amendment is appropriate for the fact that NVIDIA at one time upgraded the RTX 2070 to the RTX 2070 SUPER, keeping the same cost, and this is a completely different video card on a more powerful GPU. As a result, the increase in performance per dollar is not so great, although we are still talking about such increases in FPS, which we have long lost the habit of receiving from discrete graphics manufacturers. Fortunately, the practice of mark-up for Founders Edition video cards and their overclocking is also a thing of the past: prices recommended for partner products coincide with those at which NVIDIA will sell reference devices in its own online store.

Manufacturer NVIDIA
Model GeForce RTX 2070 GeForce RTX 2070 SUPER GeForce RTX 3070
GPU
Name TU106 TU104 GA104
Microarchitecture Turing Turing Ampere
Technical process 12 nm FFN 12 nm FFN 8 nm (8N)
Number of transistors, million 10 800 13 600 17400
Clock frequency, MHz: Base Clock / Boost Clock 1,410/1 620 (Founders Edition: 1,410/1 710) 1 605/1 770 ND / 1 725
Shader ALU 2 304 2560 5888
Texture Mapping Units (TMU) 144 184 184
Rasterization Operations Blocks (ROPs) 64 64 96
Tensor cores 288 320 184
RT cores 36 40 46
RAM
Bus width, bit 256 256 256
Chip type GDDR6 SGRAM GDDR6 SGRAM GDDR6 SGRAM
Clock frequency, MHz (bandwidth per contact, Mbps) 1,750 (14,000) 1,750 (14,000) 1,750 (14,000)
Volume, MB 8 192 8 192 8 192
I / O bus PCI Express 3.0 x16 PCI Express 3.0 x16 PCI Express 4.0 x16
Performance
Peak performance FP32, GFLOPS (based on maximum specified frequency) 7 465/7 880 (Founders Edition) 9,062 20314
FP64 / FP32 performance 1/32 1/32 1/32
FP16 / FP32 performance 2/1 2/1 1/1
RAM bandwidth, GB / s 448 448 448
Image output
Image output interfaces DL DVI-D, DisplayPort 1.4a, HDMI 2.0b DL DVI-D, DisplayPort 1.4a, HDMI 2.0b DisplayPort 1.4a, HDMI 2.1
TBP / TDP, W 175/185 (Founders Edition) 215 220
Retail price (USA, excluding tax), $ 499 (recommended) / 599 (Founders Edition) – at the time of release 499 (recommended at the time of release) 499 (recommended at the time of release)
Retail price (Russia), rub. 47,990 (Founders Edition at time of release) 39,990 (recommended at the time of release) ND

Recall that we are still talking about the younger model of the new family, which, if all theoretical calculations and internal NVIDIA benchmarks converge with practice, will be more affordable and at the same time more productive replacement for the GeForce RTX 2080 Ti. The RTX 3080 is already facing the more ambitious task of taking gaming and work performance to new heights. The older models are based on the same GA102 chip, but although the composition of the processor execution units in the RTX 3080 is seriously curtailed, its specifications still make an extremely strong impression. GeForce RTX 3080 received 8704 FP32-compatible shader ALUs and, as a result, doubles the design bandwidth of real calculations of the GeForce RTX 2080 Ti, and RTX 2080 – three times! If we add to this the upgrade of ray tracing units and tensor cores, the preliminary estimate of the performance of the new product seems to be quite fair – 100% higher compared to the RTX 2080. Like the GeForce RTX 3070, the second oldest model will go on sale at the same recommended price as and its formal predecessor, $ 699.

GeForce RTX 3090 closes the line of consumer accelerators based on Ampere chips and is likely to remain at the top of the lineup until the next NVIDIA graphics architecture is released. Subsequently, there may still appear “Amperes” with the prefix Ti in the name (or maybe, who knows, the next versions of SUPER), but it will clearly not be an RTX 3090 Ti. The fact is that the flagship is based on the fully functional GA102 crystal, which contains a fantastic 10 496 32-bit CUDA cores of standard accuracy and, according to the corresponding performance estimates, is 2.19 times faster than TITAN RTX, not to mention the notorious improvements in RT and tensor cores … Instead of comparing this in a good way monstrous accelerator with any of the previous devices, NVIDIA had enough to say that the GeForce RTX 3090 was the first video card capable of displaying games on an 8K screen with a decent frame rate and high quality graphics, including ray tracing – using DLSS scaling where appropriate, but nonetheless.

At first sight, encouraging trend towards democratization of green GPU prices bypassed RTX 3090. The novelty was estimated at an unprecedented high by the standards of consumer video cards, the amount of $ 1,499. At least single-chip ones, because that is how much the AMD Radeon R9 295X2 cost. However, although the GeForce RTX 3090 is clearly not affordable for most gamers, the RTX 3080 is so powerful that we see no reason to yearn for an additional 20% of the computing potential. In addition, the RTX 3090 does not seem outrageously expensive if you understand that within the framework of the new generation it takes the position of another “Titan” – a brand that NVIDIA actually abolished due to the fact that more execution units will no longer grow on the GA102 chip. Not surprisingly, the RTX 3090 remains the last of the green video cards with an NVLink connector and, accordingly, support for multi-chip rendering via SLI. And there is more than enough RAM in it – as much as 24 GB.

But the question of whether the VRAM volume of the GeForce RTX 3070 and RTX 3080 is adequate for their computing power remains open. The RTX 3080 will receive 10 GB of the new type of GDDR6X, and the RTX 3070 will receive 8 GB of the usual GDDR6 memory. Meanwhile, it is no longer uncommon when the consumption of VRAM by modern games at 4K resolutiongoes beyond 8 GB. Looking ahead, let’s say that in the future, the lack of local memory of the GPU will be able to at least partially compensate for the Microsoft DirectStorage software interface and the RTX IO hardware technology, which it will rely on in the Ampere chips. But until the bright future has arrived, the RTX 3070 may face limitations on the amount of RAM, which still prevent it from being called an equivalent replacement for the 11GB RTX 2080 Ti.

Manufacturer NVIDIA
Model GeForce RTX 2080 GeForce RTX 2080 SUPER GeForce RTX 2080 Ti TITAN RTX GeForce RTX 3080 GeForce RTX 3090
GPU
Name TU104 TU104 TU102 TU102 GA102 GA102
Microarchitecture Turing Turing Turing Turing Ampere Ampere
Technical process 12 nm FFN 12 nm FFN 12 nm FFN 12 nm FFN 8 nm (8N) 8 nm (8N)
Number of transistors, million 13 600 13 600 18 600 18 600 28300 28300
Clock frequency, MHz: Base Clock / Boost Clock 1,515/1 710 (Founders Edition: 1,515/1 800) 1,650/1 815 1 350/1 545 (Founders Edition: 1 350/1 635) 1 350/1 770 ND / 1 710 ND / 1 695
Shader ALU 2944 3072 4 352 4608 8704 10496
Texture Mapping Units (TMU) 184 192 272 288 272 328
Rasterization Operations Blocks (ROPs) 64 64 88 96 96 112
Tensor cores 368 384 544 576 272 328
RT cores 46 48 68 72 68 82
RAM
Bus width, bit 256 256 352 384 320 384
Chip type GDDR6 SGRAM GDDR6 SGRAM GDDR6 SGRAM GDDR6 SGRAM GDDR6X SGRAM GDDR6X SGRAM
Clock frequency, MHz (bandwidth per contact, Mbps) 1,750 (14,000) 1,937.5 (15,500) 1,750 (14,000) 1,750 (14,000) 2,375 (19,000) 2,438 (19,500)
Volume, MB 8 192 8 192 11264 24,576 10 240 24,576
I / O bus PCI Express 3.0 x16 PCI Express 3.0 x16 PCI Express 3.0 x16 PCI Express 3.0 x16 PCI Express 4.0 x16 PCI Express 4.0 x16
Performance
Peak performance FP32, GFLOPS (based on maximum specified frequency) 10 069/10 598 (Founders Edition) 11151 13 448/14 231 (Founders Edition) 16312 29768 35 581
FP64 / FP32 performance 1/32 1/32 1/32 1/32 1/32 1/32
FP16 / FP32 performance 2/1 2/1 2/1 2/1 1/1 1/1
RAM bandwidth, GB / s 448 496 616 672 760 936
Image output
Image output interfaces DisplayPort 1.4a, HDMI 2.0b DL DVI-D, DisplayPort 1.4a, HDMI 2.0b DisplayPort 1.4a, HDMI 2.0b DisplayPort 1.4a, HDMI 2.0b DisplayPort 1.4a, HDMI 2.1 DisplayPort 1.4a, HDMI 2.1
TBP / TDP, W 215/225 (Founders Edition) 250 250/260 (Founders Edition) 280 320 350
Retail price (USA, excluding tax), $ 699 (recommended) / 799 (Founders Edition) – at the time of release 699 (recommended at the time of release) 999 (recommended) / 1 199 (Founders Edition) – at the time of release 2499 699 (recommended at the time of release) 1499 (recommended at the time of release)
Retail price (Russia), rub. 63,990 (Founders Edition at time of release) 56 990 (recommended at the time of release) 95,990 (Founders Edition at time of release) 221,990 (at the time of release) ND ND

There is another controversial aspect of the new generation of green products. NVIDIA is not shy about power consumption values ​​at the level of 320 W for the GeForce RTX 3080 and as much as 350 W for the GeForce RTX 3090 (RTX 3070 appetites are estimated at a moderate 220 W). When the last time in our memory the reference video cards reached such power, it was the Radeon RX Vega 64 LC with the standard LSS (345 W) and the Radeon VII (300 W). However, we have always taken the position that the user of a standard desktop should not care about the power consumption of a video card, as long as it works quietly, does not overheat, and most importantly, it discharges the electricity spent in games. We no longer doubt the latter, but in order to guarantee the Amperes adequate cooling, NVIDIA has developed a completely new and unusual design of reference video cards.

The last and, perhaps, the main reason for concern for the gaming Ampere for us is the real retail prices at which video cards can be found on sale, especially in the initial period after release. NVIDIA itself can set whatever price you want for Founders Edition devices, but with such power consumption as the older “Ampers”, the production of an adequately powerful GPU harness cannot be cheap for Taiwanese vendors. In addition, there are persistent rumors that the GeForce RTX 3070 and RTX 3080 versions with double VRAM are sure to appear, which will certainly go beyond the prices calculated for the reference specifications.

⇡ #GA102 GPU

The first Ampere chips to be officially announced by NVIDIA are the A100 processor for datacenters and workstations and the GA102 topping the GeForce RTX 30 consumer product line. Just look at the chip’s title specs to see how far the raw has gone. processing power versus Turing silicon.

Judge for yourself. The macro architecture of the fully functional version of GA102, which is used in the GeForce RTX 3090, is represented by seven GPC blocks (Graphics Processing Cluster, the largest scalable array components) – versus six on a TU102 chip. Each of them still contains a rasterizer that performs projection of geometry into pixels and 12 Streaming Multiprocessors, but the set of 32-bit CUDA cores that process real numbers inside SM has been doubled. As a result, the GA102 main execution unit formula includes 10,496 FP32-compatible CUDA cores and 336 texture mapping units.

Another feature of GA102, noticeable from a bird’s eye view, is that ROPs are no longer tied to RAM controllers and are now a component of GPC – units from which the company assembles processors of various capacities for one or another transistor and dollar budget. The last note is the reason for migrating ROP under the same roof with streaming multiprocessors (SM). NVIDIA engineers strive to equalize the throughput of the initial and final stages of the rendering pipeline, namely the pixel fill rate of the ROP and the speed of the rasterizers. Each Ampere GPC contains 16 ROPs for a total of 112 GA102 ROPs.

A huge array of GA102 execution units feeds a 384-bit RAM bus with data support for a new type of GDDR6X microcircuits, which we will also discuss in due course. But the cache size of the second level, as in the TU102, is 6 MB. Finally, for communication with the outside world, the PCI Express Gen 4 bus and the NVLink interface are used – active in the GeForce RTX 3090, but disabled in the RTX 3080. Although the total bandwidth of the bridge remained almost the same as in consumer accelerators of the Turing architecture (112.5 GB /from round trip against 100 GB / s earlier), in reality it is a different interface, consisting of four lines at 28.13 GB / s instead of two wide ones at 50 GB / s.

The processor consists of no less than 28 billion transistors and is the largest ASIC to date after the GA100 itself (54 billion). For comparison, the direct predecessor of the novelty, the older “Turing” TU102, contains the not so impressive 18.6 billion components. Such a sharp increase in the transistor budget became possible due to the transition to the next technological standard after the 12nm TSMC process, which NVIDIA used to produce Turing. The order for GA102 photolithography was ordered by Samsung, and the nominal size of the transistor is 8 nm. Just like 12nm Turing technology in official NVIDIA documents appears under the name 12nm FFN (NVIDIA FinFet), Samsung’s 8nm FN node has been somehow optimized for Ampere chips. We generally know little about the features of this pipeline due to the fact that it is not used as actively as the 7 nm TSMC, which is close at par. Немедленно возникает вопрос, почему NVIDIA на этот раз выбрала Samsung, а не TSMC, но дело скорее всего не в технических достоинствах 8 нм FN, а в цене производства на мощностях TSMC, которые сейчас загружены другими клиентами первой величины — такими как AMD и Apple, — да и сама NVIDIA заказывает серверные процессоры GA100 там же. Благо, NVIDIA недавно объявила о том, что продукты для датацентров теперь составляют большую часть ее бизнеса, давно выделила соответствующие чипы в отдельную ветку эволюции и не нуждается в том, чтобы удешевлять производство высокомаржинальных продуктов за счет накрутки объема заказов у того же подрядчика геймерскими ускорителями.

Как бы то ни было, 8 нм FN нельзя рассматривать как техпроцесс второго сорта. Переход от узла 16 нм, на котором построен кремний Pascal, представляет собой один полный шаг технологической нормы, в то время как 12 нм был промежуточным этапом, что отражалось на размере чипов и потребляемой мощности. TU102 оказался монстром площадью 754 мм2, GA102, напротив, при более чем двукратном умножении главных вычислительных единиц, оценивается вполне умеренным числом около 627 мм2

И все-таки GA102 — чрезвычайно крупный, а главное прожорливый кусок кремния. Однако NVIDIA обещает, что с энергоэффективностью у Ampere полный порядок: по официальным данным производительность на ватт мощности у GeForce RTX 3080 возросла на 90 % по сравнению с GeForce RTX 2080 SUPER. Главная заслуга в этом принадлежит техпроцессу 8 нм, но свою роль сыграла и оптимизация схемотехники — в частности, раздельные линии питания для ядра GPU и системы памяти. Кроме того, по объявленным тактовым частотам видеокарт Ampere недалеко ушел от Turing. NVIDIA решила увеличить быстродействие за счет укрупнения чипов, всегда более выгодного с позиции энергоэффективности,а не прямого разгона, обычно ассоциирующегося со сменой технологической нормы.

Невзирая на все пугающие числа, которыми характеризуется процессор GA102, — количество CUDA-ядер, площадь и энергопотребление кристалла — достоинства Ampere не сводятся к грубой силе. Архитектура графических процессоров NVIDIA прошла очередной виток усовершенствований, которые нам предстоит рассмотреть в этом обзоре.

⇡#SM в архитектуре Ampere

Начиная с Maxwell, инженеры NVIDIA делят Streaming Multiprocessor на четыре секции с различным числом вычислительных блоков внутри (в зависимости от конкретной реализации в том или ином GPU) и в позапрошлом поколении архитектуры (Pascal) пришли к тому, что секция SM содержит 16 шейдерных ALU — 32-битных CUDA-ядер, оперирующих форматом данных FP32. Затем, в процессорах Volta и Turing, отделили пути данных для операций над целыми числами внутри CUDA-ядер от арифметики с плавающей запятой — таким образом количество независимых ALU, которые могут быть загружены одновременно, эффективно удвоилось.

Внутри секции SM находится собственный планировщик, который за такт отправляет на исполнение одну инструкцию warp’a — группы из 32 потоков инструкций. Блоку из 16 шейдерных ALU нужно два такта, чтобы ее выполнить, а во втором такте планировщик остается свободен. Нечетные такты планировщика могут быть заняты отправкой инструкций из другого warp’а на 16 целочисленных ALU (или другие типы исполнительных блоков, которые мы пока не упоминали), поэтому теоретическая пропускная способность Turing при полной загрузке целочисленными расчетами и операциями с плавающей точкой в одно и то же время также увеличилась в два раза по сравнению с исключительно дробной или исключительно целочисленной арифметикой.

В комментариях к обзорам ускорителей на Turing неоднократно звучало мнение, что NVIDIA следовало вложиться в большее число CUDA-ядер вместо специализированных блоков трассировки лучей, которые якобы помешали чипмейкеру выпустить GPU, способные сохранить прежние темпы роста производительности. И хотя серия GeForce RTX 20 действительно оказалась не самым удачным поколением с точки зрения быстродействия по сравнению с ее предшественниками, не говоря уже об удельной стоимости FPS, обвинять в этом рейтрейсинг не совсем корректно. В конце концов, на ALU общего назначения по-прежнему ложится львиная доля нагрузки при пересчете шейдеров во время множественных отражений лучей, а также денойзинг изображения, необходимый при сравнительно низкой плотности последних в рендеринге реального времени.

Тем не менее, вот ответ NVIDIA тем, кому не доложили шейдерных ALU в архитектуре Turing: теперь количество CUDA-ядер FP32 внутри секции SM стало вдвое больше. Ampere вернулся к исходным позициям архитектуры Pascal, когда на одном и том же пути данных лежит массив 16 ALU FP32 и 16 целочисленных ALU INT32, но появилась отдельная ветка из 16 FP32-совместимых CUDA-ядер. Таким образом, при равном количестве SM теоретическая производительность Ampere в операциях над 32-битными вещественными числами увеличилась в два раза по сравнению с Turing. Пожалуй, это главное, что что нужно вынести из обзора новых чипов, если нет интереса к более изощренным аспектам новой архитектуры.

Польза от реорганизации SM еще и в том, что транзисторный бюджет процессора нет так сильно раздулся, как если бы NVIDIA просто нарастила их количество. Чтобы насытить потребности усиленного SM в быстром доступе к данным, объем кеша L1, общий с разделяемой памятью, было достаточно увеличить с 96 до 128 Кбайт, хотя пропускная способность хранилища удвоилась с 64 до 128 байт за такт. Кроме того, Ampere допускает более гибкие пропорции между L1 и разделяемой памятью. Раньше можно было выделить только 64 из 96 Кбайт одному типу данных. Теперь разделяемая память может занять вплоть до 100 Кбайт в задачах GP-GPU, хотя полезный объем кеша L1 и текстурного кеша для 3D-рендеринга по-прежнему не превышает 64 Кбайт.

Объем регистрового файла — ближайшего к ALU и, соответственно, самого быстрого типа памяти в графическом процессоре — по-прежнему составляет 256 Кбайт, а значит остаются в силе ограничения на одновременную загрузку компонентов SM: если точнее, во время работы тензорного ядра планировщик не может инициализировать никакие другие из основных вычислительных блоков. Однако тензоры в новой архитектуре мы рассмотрим подробнее чуть позже.

Несмотря на всю мощь Ampere, о реальном быстродействии, близком к проектным значениям, может идти речь только при рафинированной вещественночисленной нагрузке, ведь блок INT32-ядер теперь снова висит на одной ветке с одним из двух блоков FP32. Кроме того, за такты планировщика в секции SM претендует масса других компонентов:

  • Помимо собственно тензорной математики на тензорных блоках Ampere выполняет операции с вещественными числами половинной точности (FP16). Здесь ничего не изменилось: инструкция warp’а над операндами FP16 по-прежнему выполняется за один такт — вдвое быстрее стандартной точности.
  • В каждой секции SM присутствует блок из четырех ALU специального назначения (SFU), предназначенных для выполнения тригонометрических операций. Одну инструкцию warp’а SFU выполняет за восемь тактов, но занимает только один такт планировщика для инициализации.
  • Также есть скалярные ALU, но в каком количестве и с таким темпом исполнения инструкций, нам в точности не известно.
  • Пара CUDA-ядер двойной разрядности (FP64) для совместимости с кодом, содержащим высокоточные расчеты.

Если не считать скалярных ALU и тензорных операций, конкуренция исполнительных блоков за такты планировщика позволяет параллельно отрабатывать внутри секции SM не больше трех разнотипных нагрузок из четырех возможных: арифметика с вещественными числами одинарной точности (на CUDA-ядрах FP32), с целыми (INT32), с вещественными половинной точности (FP16) и тригонометрические операции (SFU). Благодаря тому, что FP32- и INT32-инструкции бегают на своих ALU по два такта, а SFU — по восемь, допустимы различные комбинации между ними. Кроме того, клиентом планировщика является еще и блок ветвлений, а также группа блоков load/store. Чтобы задействовать какой-либо из них, в этот такт планировщик не может отдать инструкцию для исполнения на шейдерных ALU.

Расчеты пропускной способности, которую развивает SM графических процессоров Ampere, приведены в таблице для сравнения с архитектурами Turing, Pascal, а также соперничающими «красными» решениями — RDNA и GCN, по-прежнему бодро чувствующими себя в сфере GP-GPU. Заметим, что мы не стремились охватить абсолютно все сочетания инструкций, которые возможны в рассмотренных архитектурах. Пропуск тактов ALU, который в чипах NVIDIA могут вызывать операции load/store, тоже не берется во внимание (GCN и, скорее всего, RDNA, обходит последнее ограничение за счет большого числа портов планировщика). Все, что нам было нужно, это оценить быстродействие при работе с тем или иным форматом данных — FP32, INT32, FP16, а также в тригонометрических операциях. С учетом темпа исполнения медленных инструкций мы взяли за временной интервал пропускной способности восемь тактов GPU — таким образом в таблице остается меньше дробных чисел.

Compute Unit (GCN 5 поколения) Compute Unit (RDNA) Streaming Multiprocessor (Turing) Streaming Multiprocessor (Ampere)
Исполнительные блоки

4 × векторных SIMD16;

4 × векторных SIMD4 SFU;

1 × скалярное ALU;

4 × TMU (блока фильтрации текстур).

2 × векторных SIMD32;

2 × векторных SIMD8 (SFU);

2 × скалярных ALU;

4 × TMU (блока фильтрации текстур).

4 × секции 16 ALU (FP32);

4 × секции 16 ALU (INT32);

4 × секции 4 SFU;

? × скалярных ALU;

4 × секции 2 тензорных ядрер (или 4 × секции 32 FP16 ALU);

2 × ALU (FP64);

1 × RT-ядро;

4 × TMU (блока фильтрации текстур).

8 × секции 16 ALU (FP32);

4 × секции 16 ALU (INT32);

4 × секции 4 SFU;

? × скалярных ALU;

4 × секции 2 тензорных ядрер (или 4 × секции 32 FP16 ALU);

2 × ALU (FP64);

1 × RT-ядро;

4 × TMU (блока фильтрации текстур).

Пропускная способность, инструкций за 8 тактов

8 × FP32 (64 рабочие единицы) + 8 × скалярных

OR

8 × FP16 (2 × 64 рабочие единицы) + 8 × скалярных

OR

4 × 1/2 SF FP32 (64 рабочих единиц) + 8 × скалярных

16 × FP32 (32 рабочие единицы) + 16 × скалярных

OR

16 × FP16 (2 × 32 рабочие единицы) + 16 × скалярных

OR

12 × FP32 (32 рабочие единицы) + 4 × SF FP32 (32 рабочие единицы) + 16 × скалярных

16 × FP32 (32 рабочие единицы) + 16 × INT32 (32 рабочие единицы)

OR

32 × FP16 (32 рабочие единицы)

OR

4 × (3 + 1/2) FP32 (32 рабочие единицы) + 4 × (3 + 1/2) INT32 (32 рабочие единицы) + 4 × SF FP32 (32 рабочие единицы)

32 × FP32 (32 рабочие единицы)

OR

16 × FP32 (32 рабочие единицы) + 16 × INT32 (32 рабочие единицы)

OR

32 × FP16 (32 рабочие единицы)

OR

8 × (3 + 1/2) FP32 (32 рабочие единицы) + 4 × SF FP32 (32 рабочие единицы)

OR

4 × (3 + 1/2) FP32 (32 рабочие единицы) + 4 × (3 + 1/2) INT32 (32 рабочие единицы) + 4 × SF FP32 (32 рабочие единицы)

8 × FP32 (64 рабочие единицы) + 16 × скалярных

OR

8 × FP16 (2 × 64 рабочие единицы) + 16 × скалярных

OR

6 × FP32 (64 рабочие единицы) + 2 × SF FP32 (64 рабочие единицы) + 16 × скалярных

Пропускная способность, операций за 8 тактов

512 × FP32/INT32 + 8 скалярных

OR

1024 × FP16/INT16 + 8 скалярных

OR

128 × SF FP32 + 8 скалярных

512 × FP32/INT32 + 16 скалярных

OR

1024 × FP16/INT16 + 16 скалярных

OR

384 × FP32/INT32 + 128 × SF FP32 + 16 × скалярных

512 × FP32 + 512 × INT32

OR

1024 × FP16

OR

448 × FP32 + 448 × INT32 + 128 × SF FP32

1024 × FP32

OR

512 × FP32 + 512 × INT32

OR

1024 × FP16

OR

892 × FP32 + 128 × SF FP32

OR

448 × FP32 + 448 × INT32 + 128 × SF FP32

Ampere удвоил пиковую производительность в операциях над числами FP32, свойственную Turing. Но по таблице хорошо видно, что то же можно сказать, если взять за точку отсчета конкурирующую архитектуру RNDA. Кроме того присутствие в шейдерном коде тригонометрических операций сильнее бьет по общей пропускной способности RDNA, нежели Ampere. Никуда не делась и возможность исполнять INT32- и FP32-расчеты одновременно, которой RDNA не обладает. Впрочем, сравнивая Ampere и RDNA, не следует фокусироваться на удельной производительности основного строительного блока той и другой архитектуры — SM у NVIDIA и Compute Unit у AMD. В том виде, как RDNA представлена чипами Navi, один CU слабее амперовского SM, но он, очевидно, и дешевле по транзисторному бюджету. Который из двух подходов окажется выигрышным на следующем витке противостояния между двумя чипмейкерами, мы сможем выяснить на практике уже в следующем месяце, когда будут представлены продукты на основе большого Navi и RDNA второго поколения.

⇡#Усиленные блоки трассировки лучей

Каждый SM в архитектуре Turing содержит RT-ядро, которое выполняет поиск пересечений между лучом и полигонами сцены. В простейшем случае такая задача крайне неэффективно и ресурсоемко решается путем перебора всех геометрических примитивов, но RT-движок Turing использует распространенный метод оптимизации под названием Bounding Volume Hierarchy. Алгоритм BVH заранее сортирует полигоны объектов по вложенным друг в друга боксам. Таким образом, чтобы быстро определить точку пересечения луча с поверхностью примитива, сперва программе нужно рекурсивным образом пройти сквозь древовидную структуру BVH.

RT-ядра, представленные в чипах Turing, разделены на два механизма, один из которых отвечает за поиск полигона внутри BVH, а другой — за определение координат пересечения с лучом на плоскости самого полигона. И хотя появление RT-ядер само по себе помогло Turing выйти на уровень быстродействия, недостижимый в рамках программного рейтрейсинга, первая итерация данной архитектуры имеет свои ограничения. А именно, два компонента RT-ядра работают строго в последовательном порядке. В Ampere это изменилось: блок пересечения с полигоном может заниматься одним лучом одновременно с тем, как блок BVH отслеживает второй. Кроме того, первый блок работает вдвое быстрее, чем раньше.

Наконец, в аппаратном рейтрейсинге на чипах Ampere есть одно функциональное нововведение — трассированный motion blur. В структуре BVH теперь можно обнаружить информацию о положении геометрического примитива в кадре не только в виде неизменных координат, но еще и в виде вектора на протяжении определенной временной шкалы. Таким образом, поиск полигона в BVH отвечает на вопрос, где он находится в заданный момент времени. Далее для того, чтобы получить размытие в движении, каждый из множества лучей, отслеживаемых RT-ядром в пределах одного кадра, несколько раз пересекает поверхностью полигона в интерполированных координатах, соответствующих меняющемуся положению вершин вдоль заданного вектора.

Благодаря специализированному железу трассированный motion blur на чипах Ampere выполняется в восемь раз быстрее по сравнению с теоретической скоростью на Turing. Также заметим, что движение полигона не обязано быть линейным и может, к примеру, быть и круговым, как у лопастей пропеллера. В любом случае результатом становится более качественный эффект размытия по сравнению с иными, порой более изощренными, но не столь элегантными методами. Технология уже поддерживается пакетами оффлайновой трассировки лучей, совместимыми с интерфейсом NVIDIA OptiX 7.0 — такими, как Blender 2.90, Chaos V-Ray 5.0, Autodesk Arnold и Redshift Renderer 3. А вот в компьютерных играх она появится не так скоро: как ни крути, она многократно увеличивает нагрузку не только на RT-ядра, но и на массив шейдерных ALU.

⇡#Тензорные ядра нового поколения

Еще одним исполнительным блоком секции SM в процессорах Turing являются два тензорных ядра, которые рассчитаны на единственный тип операций — FMA (Fused Multiply Add), — а в качестве операндов принимают матрицы чисел с плавающей запятой. Подобные вычисления используются при обработке данных нейросетями (inference) как профессиональной, так и в игровой сфере — к примеру, на них опирается фирменный алгоритм масштабирования кадров DLSS.

В чипах Volta и Turing тензорное ядро перемножает две матрицы чисел половинной точности (FP16) размером 4 × 4 и складывает результат с третьей матрицей 4 × 4 (FP16 или FP32), чтобы получить финальную матрицу FP32. Таким образом, одно тензорное ядро за такт процессора выполняет 64 инструкции FMA. Что же изменилось в следующей итерации микроархитектуры? Во-первых, тензорное ядро Ampere обладает вдвое большей пропускной способностью за счет того, что размерность одной из перемножаемых матриц увеличилась с 4 × 4 до 4 × 8. Вместе с тем, каждая секция SM потребительских чипов Ampere теперь содержит лишь одно тензорное ядро, так что удельная производительность на такт осталась прежней. В серверном GA100 она удвоена, поскольку каждое тензорное ядро выполняет умножение матриц размером 8 × 4 и 8 × 8, но реализовывать подобную вычислительную мощность в потребительских продуктах NVIDIA пока не считает целесообразной инвестицией транзисторного бюджета.

Общим нововведением для GA100 и геймерских разновидностей Ampere является поддержка структурно-разряженных матриц, которые позволяют существенно увеличить пропускную способность тензорных ядер. Давайте разберемся, о чем идет речь. Глубинное обучение нейросети начинается с того, что каждый узел определенного слоя соединен со всеми узлами следующего, а в процессе тренировки соединения приобретают веса, определяющие «перемещение» данных, обрабатываемых нейросетью на практике. При этом обязательно возникают соединения, не оказывающие значимого влияния на точность результатов. Такие соединения, узлы или целые сегменты принято устранять для экономии вычислительных мощностей тем или иным способом, и получается, собственно говоря, разряженная сеть.

К примеру, веса соединений, близкие к нулю, обнуляются, после чего проводится повторная тренировка сети — метод т.к. Fine-Grained Sparsity. В ином случае (Coarse-Grained Sparsity) изымаются целые сегменты сети. Первый подход позволяет сохранить высокую точность, но страдает от низкой оптимизации под массивно-параллельную архитектуру исполнительных блоков и памяти GPU. Так, для того, чтобы получить данные на выходе узлов в условиях Fine-Grained Sparsity требуется неравный объем вычислений, что вызывает проблемы с балансировкой нагрузки, и неравномерный доступ к памяти. А вот структурная разреженность (Fine-Grained Structured Sparsity) также допускает присутствие в сети нулевых весов, но вместе с тем накладывает такие ограничения, что каждый узел определенного ряда должен иметь фиксированное число деактивированных соединений. В результате на каждый узел приходится одинаковый объем вычислений и запросов к данным.

Тензорные ядра Ampere оптимизированы под обработку структурно-разреженных нейросетей таким образом, что в расчетных матрицах возможно наличие двух ненулевых значений в ряду из четырех чисел, а общая производительность также увеличивается в два раза за счет пропуска нулей. Кроме того, матрицы, разреженные в соотношении 2:4, допускают двукратную компрессию, которая экономит объем и пропускную способность различных эшелонов памяти GPU. Заметим, что Ampere не выполняет разрежение матриц на лету, но NVIDIA предоставила для этого простой алгоритм. Сначала разработчик должен выполнить тренировку нейросети с результатом в виде плотной матрицы, затем последняя конвертируется в разреженную, и наконец происходит тонкая настройка оставшихся весов. Как утверждает чипмейкер, метод не приводит к значимому падению точности обработки данных нейросетью (inference) в таких задачах, как компьютерное зрение, распознавание объектов, моделирование естественных языков и т.д.

Однако и это еще не все. Следующее нововведение Ampere, связанное с тензорными ядрами, напрямую касается производительности в играх. Дело в том, что Turing не позволяет одновременно нагружать блоки трассировки лучей и тензорные ядра. Как следствие, графические шейдеры могут обрабатываться непрерывно по мере рендеринга кадра, но параллельно им в отдельный момент времени действует только один тип расчетной (compute) нагрузки — рейтрейсинг или тензорные операции DLSS. Теперь трассировка лучей, графические шейдеры и DLSS выполняются одновременно, что дополнительно сокращает время рендеринга. Может возникнуть вопрос, каким образом DLSS находит работу, пока кадр еще не готов. Ответ в том, что DLSS имеет временную компоненту и привлекает данные предшествующих кадров.

⇡#Оперативная память GDDR6X

Колоссальный потенциал вычислительной мощности старших чипов Ampere нуждается в соответствующей пропускной способности набортной памяти видеокарты. В то же время, скорость переключения ячеек DRAM увеличить нелегко, а пропускную способность в последние годы удавалось наращивать главным образом за счет параллелизма передачи данных. Так, например, в стандартах GDDR5X и GDDR6 ввели режим QDR, который за счет фазового сдвига четырех копий сигнала (частоты WCK, Word Clock) обеспечивает двойную пропускную способность по сравнению с чипами GDDR5, передающими информацию в режиме DDR. Но при этом «реальная» частота WCK первоначально была такой же, как в рамках GDDR5.

Потребительские видеокарты сегодня оснащаются памятью GDDR6 с номинальной скоростью передачи данных вплоть до 16 Гбит/с на контакт, но похоже, что таким процессорам, как GA102, требуется очередной качественный скачок. NVIDIA могла пойти путем увеличения разрядности шины памяти GPU — либо за счет перехода на HBM2, как сделано в топовых устройствах AMD и «зеленых» серверных ускорителях, включая GA100, либо за счет подключения чипов GDDR6 к широкой 512-битной шине. Но оказалось, что есть и другой выход. По заказу NVIDIA компания Micron создала для ускорителей GeForce RTX 30 новые микросхемы памяти GDDR6X. Название вызывает ассоциации с GDDR5X, и неспроста. Последний тип SGRAM был разработан специально под нужды передовых предложений NVIDIA своего времени — GeForce GTX 1080 Ti и ускорителей Quadro на том же чипе GP102. Впоследствии стандарт был кодифицирован JEDEC, но ни один другой производитель, кроме NVIDIA и Micron, не воспользовался этой возможностью.

GDDR6X пока тоже не является достоянием всей индустрии, хотя наработки Micron еще могут найти применение в грядущих версиях памяти GDDR. Речь идет о коренном изменении принципов кодирования сигнала WCK. Сегодня, в памяти типа GDDR6, один такт сигнала кодирует один бит информации, соответствующий высокому и низкому напряжению проводника. В GDDR6X, напротив, применяется амплитудно-импульсная модуляция, когда амплитуда сигнала может принимать четыре различных значения (PAM4) и, соответственно, в одном такте сигнала закодированы два бита данных. В рамках PAM4 можно вдвое снизить частоту WCK, сохранив прежнюю пропускную способность, а затем постепенно наращивать и то, и другое.

Micron наладила выпуск микросхем с номиналом 19 и 21 Гбит/с. Первая разновидность GDDR6X нашла применение в GeForce RTX 3080 и обеспечивает GPU совокупную пропускную способность в 760 Гбайт/с при шине RAM, урезанной с 384 до 320 бит. Среди современных потребительских видеокарт более высокой ПСП может похвастаться лишь Radeon VII (1 Тбайт/с), но GeForce RTX 3090 даже при том, что NVIDIA ограничилась скоростью 19,5 Гбит/с на контакт, уже приближается к показателям HBM2 благодаря полностью активной шине памяти — 936 Гбайт/с. Сравнительно низкие «реальные» частоты благотворно влияют и на энергоэффективность чипов — по данным Micron она увеличилась на 15 %, что совсем не повредит чрезвычайно прожорливым новинкам.

Наконец, NVIDIA отмечает, что каждый чип GDDR6X теперь соединен с GPU двумя псевдонезависимыми каналами. В действительности и обычная память GDDR6 устроена так, что половинки микросхемы имеют собственные шины передачи команд, адресов и отдельные 16-битные шины передачи данных. Общей является лишь тактовая частота — отсюда приставка псевдо-. По всей видимости, в данном случае речь идет о более гибком управлении кристаллами DRAM, которое помогает ускорить операции прохождения структур BVH при трассировке лучей.

Как бы то ни было, переход от GDDR6 к GDDR6X не прошел бесплатно: PAM4 увеличивает производительность RAM ценой повышенных требований к соотношению сигнал-шум. И, следовательно, для того, чтобы обслуживать память с такими характеристиками, требуются изощренные контроллеры. В частности, NVIDIA использует в отношении динамической памяти прием, распространенный в телекоммуникационных стандартах, опирающихся на амплитудно-импульсную модуляцию, — перекодирование потока данных для предотвращения максимальных колебаний амплитуды, — не говоря уже об усовершенствованных алгоритмах настройки сигнала. Кроме того, отдельную линию питания для подсистемы памяти графического процессора, которую мы упомянули в начале статьи, решили проложить не в последнюю очередь для того, чтобы, опять-таки, улучшить соотношение сигнал-шум в условиях PAM4.

Наконец, производителям печатных плат для GeForce RTX 3080 и RTX 3090 теперь тоже придется иметь дело с более жесткими требованиями к схемотехнике, нежели когда-либо прежде. Не зря чипы RAM в референсной версии RTX 3080 распаяны так близко к подложке GPU. Отметим, что микросхемы GDDR6X выпускаются в таких же корпусах, как у GDDR6, и обладают таким же набором контактов для тех или иных сигналов. У нас нет подтверждения тому, что старый и новый тип памяти электрически совместимы между собой, но вполне возможно, что так оно и есть, а партнеры NVIDIA смогут использовать один и тот же дизайн печатной платы для GeForce RTX 3080 и RTX 3070, хотя последний рассчитан именно на GDDR6.

Главным практическим возражением при выборе памяти для GeForce 30-й серии является цена решения. GDDR6X значительно дешевле в производстве и сборке по сравнению с HBM2, но все-таки дороже GDDR6 и нуждается в более дорогих печатных платах. Все эти обстоятельства дают новую пищу для сомнений в том, что производители видеокарт оригинального дизайна сумеют удержать приятные розничные цены, рекомендованные NVIDIA. И разумеется, не идет никакой речи о том, чтобы дешево стоили «Амперы» с удвоенным объемом VRAM. Micron еще не выпускает чипов емкостью больше 8 Гбит, а значит в гипотетические 20-гигабайтные разновидности GeForce RTX 3080 и 16-гигабайтные RTX 3070 придется закладывать вдвое больше микросхем для работы в clamshell-режиме, не считая еще более сложной схемотехники печатных плат.

Еще один важный аспект быстродействия GPU, над которым поработали создатели Ampere, связан с пропускной способностью соединения между графическим процессором и остальным компонентами системы. Да, все видеокарты серии GeForce RTX 30 используют интерфейс PCI Express четвертого поколения, но это лишь временное решение сложностей, возникающих при передаче данных между ПЗУ компьютера, центральным процессором и локальной памятью графической карты — в частности, в таких сценариях, как предварительная загрузка ресурсов игры или стриминг последних в реальном времени, который широко используется для преодоления ограничений емкости VRAM. Тем более, как мы уже заметили, сам объем оперативной памяти может вызвать трудности для GeForce RTX 3080 в не столь отдаленном будущем, а референсные спецификации GeForce RTX 3070 уже выглядят проблематично.

Современные игры уже занимают на жестком диске или SSD свыше 200 Гбайт места, и значительная часть этих данных так или иначе должна попасть в оперативную память GPU. В традиционной логике ввода-вывода это выполняется неуклюжим способом, когда ресурсы сперва копируются в системную память, а затем в GPU, дважды проходя через интерфейс PCI Express. Кроме того, быстрый SSD не всегда подключен напрямую к центральному процессору: к примеру, свои ограничения на пропускную способность может накладывать шина DMI между CPU и PCH в архитектуре Intel. Наконец, преобладающие в десктопах файловые системы не рассчитаны на эффективную обработку такого количества запросов ввода-вывода.

Чтобы обойти все перечисленные ограничение, разработчики игр применяют компрессию данных без потерь, но у нее есть собственные издержки: распаковка данных занимает такты процессора. В паталогических случаях, которые симулировала NVIDIA, декомпрессия потока данных с твердотельного накопителя, способного выдать 7 Гбайт/с по шине PCI Express 4.0, полностью поглощает 24 ядра Ryzen Threadripper 3960X! Современные игры, очевидно, не могут создать настолько узкое бутылочное горлышко, но судя по тому, какими темпами нарастает объем графических ресурсов, это лишь вопрос времени.

В корне решить проблему загрузки данных в память GPU может только совершенно иная архитектура ввода-вывода. Такие решения уже существуют. К примеру, в консоли нового поколения Xbox Series X применяется специальный SSD, блок аппаратной декомпрессии, а также интерфейс программирования DirectStorage. Microsoft намерена портировать DirectStorage на PC, и если учесть будущие кросс-платформенные проекты, внедрение нового API в передовые игры для персоналок не за горами. Тем не менее, для работы DirectStorage требуется не только SSD, но также средства ускоренной декомпрессии данных, снимающие нагрузку с центрального процессора.

Именно эту функцию берет на себя технология RTX IO, которая вносит два ключевых изменения в способ передачи данных. Во-первых, при помощи DMA-блоков Turing и Ampere (да-да, это не эксклюзивная особенность RTX 30-й серии) графические ресурсы копируются напрямую в VRAM, минуя системную память. Во-вторых, на пути от SSD к видеокарте данные остаются сжатыми, а декомпрессию выполняет сам графический процессор путем асинхронных вычислений на шейдерных ALU. Таким образом загрузка из ПЗУ может происходить на полной скорости PCI Express 4.0, но при этом давление на CPU уменьшается в десятки раз. RTX IO под управлением DirectStorage даст разработчикам игр возможность более агрессивно использовать компрессию данных, что в итоге радикально уменьшит время первоначальной загрузки игр. С другой стороны, благодаря скоростной потоковой передаче GPU сможет на лету получать ресурсы из ПЗУ — как для того, чтобы в играх в принципе было меньше периодов загрузки, так и для экономии объема VRAM.

⇡#Аппаратное декодирование AV1 и выход HDMI 2.1

Чипы Ampere стали первыми графическими процессорами с блоками фиксированной функциональности для быстрого декодирования AV1 — нового, высокоэффективного формата сжатия видеозаписей, который предназначен, главным образом, для трансляции видео по сети. AV1 обеспечивает более высокую степень компрессии, повышенное качество изображения по сравнению с распространенными кодеками HEVC (H.265) и VP9 и в то же время свободен от лицензионных отчислений.

AV1 идеально соответствует требованиям 8К-видео, но декомпрессия формата оказывает чрезвычайно сильную нагрузку на процессоры общего назначения. Так, даже современный восьмиядерный CPU не гарантирует больше 30 кадров/с при воспроизведении записей 8К с высоким динамическим диапазоном. Новая версия декодера NVDEC целиком берет эту задачу на себя. Вместе с тем, на этот раз NVIDIA ничего не говорит о скорости декодировании прежних форматов H.264, HEVC и VP9. Благо, чипы Turing уже достигли в ней чрезвычайно высоких показателей. Кодировщик NVENC также достался в наследство новым GPU без всяких изменений.

Коль скоро GeForce RTX 2090 объявлен видеокартой для игры в разрешении 8К, справедливо, что флагманский Ampere и два младших ускорителя обзавелись интерфейсом HDMI версии 2.1 с максимальной пропускную способностью, описанной стандартом (48 Гбит/с), которая как раз-таки обеспечивает передачу 8К-сигнала с частотой обновления 60 Гц, а благодаря компрессии (DSC) — еще и HDR.

⇡#Выводы

Если ускорители семейства Turing стали в истории графических процессоров NVIDIA таким же поворотным моментом, как появление программируемых шейдеров в GeForce 256, а затем унифицированной шейдерной архитектуры и вычислений общего назначения в GeForce 8800, Ampere вызывает ассоциации с такими славными продуктами, как Kepler и Pascal. Тогда NVIDIA отложила внедрение новых функций рендеринга и сосредоточилась на росте чистой производительности, опираясь на преимущества передового техпроцесса, а пользователи наслаждались колоссальной прибавкой игровой производительности. C видеокартами GeForce RTX 30 произошло примерно то же самое. Конечно, инженеры NVIDIA не упустили возможности расширить функциональность GPU. В частности, такое нововведение, как RTX IO выглядит весьма перспективно, и имеет все шансы найти практическое применение в играх. Но RTX IO не привязана к чипам Ampere, совместима с Turing, да и в целом предыдущее поколение «зеленых» GPU уже заложило основы архитектуры, стоящей на трех китах: эффективной организации шейдерных ALU, тензорных вычислениях и аппаратно-ускоренной трассировке лучей. От следующей итерации кремния требовалось только нарастить производительность, и судя по тому, что мы знаем про Ampere, видеокарты RTX 30 вряд ли дадут повод для разочарования.

А главное, NVIDIA пошла навстречу покупателям и вернулась к правилу «больше FPS за те же деньги». Осталось убедиться в величине прибавки, но это мы выясним в ближайшие дни, когда в нашем распоряжении появятся долгожданные тестовые образцы GeForce RTX 3080 и RTX 3090. Вместе с тем, должны признаться, что нас кое-что тревожит в характеристиках новинок. Да, NVIDIA установила на видеокарты 30-й серии такие же цены, как и у предшественников, а если сравнивать GeForce RTX 3090 со старым «Титаном», то первая стоит даже меньше. Но все, что мы узнали об Ampere, — высокая потребляемая мощность, требующая соответствующего охлаждения, дорогие чипы памяти и сложные печатные платы — говорит о том, что эти устройства не созданы дешевыми. Так что цены партнерских продуктов в итоге могут сильно разминуться с официальными цифрами. Кроме того, пока нельзя быть уверенным в существовании альтернативных разновидностей GeForce RTX 3080 и, что особенно важно, RTX 3070 с удвоенным объемом VRAM, но их вы точно не сможете купить по рекомендованной стоимости. Наше мнение об ускорителях GeForce RTX 30 и результат надвигающейся битвы между Ampere и большими чипами AMD Navi решат не только и не столько тесты быстродействия, сколько ситуация на рынке через месяц-другой после появления в продаже.

Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Leave a Comment