Performance anunciada pela Consola da Asus Rog Ally, é afinal uma valente treta!

Quando a consola foi anunciada, esta foi referida como sendo capaz de 8.6 Tflops. E textos mais recentes anunciavam os mesmos como sendo 32 bits, ou seja 8.6 Tflops efetivos.

A publicidade da Asus Rog Ally refere claramente que a consola é capaz de 8.6 Tflops. Eis a mesma:

Eu mesmo já referi esta situação aqui, sem a questionar, e isso porque os dados sobre as velocidades do GPU não estavam disponível.



Mas a realidade é que fazendo as contas apenas com os elementos disponíveis, eles não batem certo!

Vamos ver;

O cálculo tradicional dos Tflops faz-se da seguinte forma:

Numero total de stream processors, 2 operações por ciclo, velocidade de relógio.

E isto teria de dar 8.6 Tflops.

Vamos fazer esta conta com os dados conhecidos.



O GPU possui 12 Compute units, o que significa que possui 768 stream strocessors.

Assim, 768*2*velocidade de relógio =  8600000.

Isto implicaria uma velocidade de relógio do GPU de 5598.9 mhz. O que todos sabemos ser impossível!

Logo algo aqui está mal!

Como se justifica então esta situação?



Bem, estamos perante um GPU RDNA 3, e não RDNA2, pelo que teremos de ver se este GPU, com esta arquitetura, continua a fazer 2 operações por ciclo, ou se faz mais.

E o que vemos é que a AMD anuncia o seguinte:

Basicamente a AMD anuncia que esta arquitetura duplica o ritmo das instruções do RDNA 2. E assim sendo, na formula, em vez de um 2, teríamos de ter um 4.

Assim, 768*4*velocidade de relógio =  8600000.



Isto atira a velocidade do GPU para os 2799,47 Mhz. Algo já aceitável!

Sabe-se no entanto, uma vez que as especificações totais já foram lançadas nesta altura, que a consola possui uma velocidade de 2,7 Ghz no GPU, o que atira então os Tflops máximos teóricos para:

768*4*2700= 8,294 Tflops.

Ou seja, os 8.6 na realidade, mesmo sendo uma capacidade para o SOC, nesta consola nunca serão atingidos. A consola consegue, quando muito 8,294 Tflops.

Mas a questão agora é: Será que esta duplicação do ritmo a que se executa o instruction set realmente funciona em pleno?



A análise PCManias

Realmente, esta inovação da AMD permitirá que o RDNA 3 tenha largas vantagens em capacidade de computação sobre o RDNA2. Mas esta capacidade dos SIMDs não é uma realidade sempre, mas sim algo limitado. Isto porque a arquitetura funciona num sistema de agrupamento e instruções que se juntam numa única VOPD (vector operation, dual instruction). Basicamente algo que, sem ser igual, faz lembrar o Rapid Packed Math que a AMD criou antes para processar duas instruções 16 bits num único ciclo de 32 bits. E isso agora quer ser aplicado ao se processar a uma wavefront com 64 bits de largura num único ciclo.

Único problema de tal… as instruções tem de poder ser unidas.

Uma operação VOPD do RDNA 3 é codificada em 8 bytes, e suporta duas fontes com um único destino, para cada uma das duas operações. Isto não só exclui operações que requerem 3 inputs, e que são bastante comuns, como as operações genéricas de fusão de multiplicação e soma, como estas oportunidades de detetar operações que possam ser unidas são limitadas pelas unidades de execução disponíveis, dependências de dados, e largura de banda dos registos.

Basicamente operadores na mesma posição não podem ler o mesmo banco de registos. A AMD refere na ISA do RDNA 3 que cada banco tem uma cache de registo com três portas de leitura, cada uma ligada a uma posição de operadores. Isso significa que duas leituras do mesmo banco na mesma posição fonte iriam sobrecarregar as portas do cache de registro. E há outra limitação aplicada aos registos de destino sendo que não podem ser ambos pares ou ambos impares.



Neste sentido, não é claro o impacto que estas alterações do RDNA 3, mesmo funcionando em pleno, terão… Mas mesmo que a nível de Tflops, um valor teórico, a situação suba bastante, estamos perante algo como o visto na geração passada com as ampere da Nvidia, onde o aumento dos Tflops não correspondeu a ganhos reais equivalentes ao aumento.

A piorar a situação, a deteção das possibilidade de agrupamento VOPD são altamente dependentes dos compiladores, que são extremamente estúpidos em perceber mesmo otimizações simples. E se isto tem a possibilidade de ser bem melhorado no futuro, substituindo-se shaders conhecidos com versões otimizadas durante a compilação, o facto é que nesse campo ainda nada existe e a AMD tem largos anos pela frente de trabalho para alterar o panorama atual..

Basicamente, o que devemos concluir é que esta duplicação obtida pelos VOPD e que obtém o dobro dos shaders, não é o mesmo que ter o dobro dos shaders.

E se por norma se usa a contagem de shaders para se calcular quantas operações FP32 os GPUs podem fazer por ciclo (ou os Tflops ao multiplicarmos pela velocidade), com este VOPD, em teoria, duplicaríamos a taxa de transferência de processamento FP32 por WGP, com muito pouca sobrecarga de hardware para além do existente nas unidades de execução extras. Mas dado que isto é feito empurrando a responsabilidade do agendamento para o compilador e com os compiladores ainda longe de fazerem algo nesse campo que seja minimamente decente, estas performances não estarão disponíveis, e dificilmente estarão tão cedo!

E isto quer dizer que quem espera alguma vez poder vir a ver algo como os 8.29 Tflops que a Rog Ally pode dar (e que não são os 8.6 anunciados), é bom que espere sentado.

 



 

 

 

 



22 Comentários
Antigos
Recentes
Inline Feedbacks
Ver todos os comentários
Juca
Juca
27 de Maio de 2023 8:31

Mais uma vez o marketing a ajudar o que seria um produto razoável até.

Mas precisava se pintar bem superior ao Steam Deck pra enrolar mais alguns a sacar seus mangos um pouco mais.

Vale lembrar que mesmo esses 8.2 (a.k.a. 8.6) seriam em condições especiais (ligado a tomada) para fazer valer essa proposta,o que deixa de fazer sentido a portabilidade.

Do jeito que a tecnologia vai,daqui uns dias os Tflops, mesmo para comparações simplistas perderá totalmente o sentido, servindo apenas ao marketing de calculadoras científicas. Já que esses “multiplicadores” de ciclos não parecem multiplicar a performance por outras limitações parciais que não afetam quando no uso de multiplicadores menores.

Desses 8.2 pro 8.6 fiquei pensando se o marketing não fez a firula de aumentar o clock irrealmente por receber que a tecnologia smart shift pode fazer com que a GPU, em certos momentos, pode receber um pouco mais de energia do sistema, sendo que não é essa a lógica do smart shift e que o clock a 8.2 tflops já representa o seu máximo. Mas é o que estou a conjecturar apenas.

Quero saber como um Switch 2 vai se guentar por anos a fio. Porque mesmo com a potência desses portáteis aí de 600 dólares, em gráficos, não vai longe.

Last edited 11 meses atrás by Juca
Hennan
Hennan
27 de Maio de 2023 8:49

Recentemente a AMD lançou a 7600. Gpu que tem configurações idênticas a 6650xt. Única diferença é a mudança na arquitetura. Para a surpresa de muitos. O resultado nos testes foi um ganho de fantásticos 2% em rasterizaçao.

Juca
Juca
Responder a  Hennan
27 de Maio de 2023 10:12

Impissionante! ????

Tiohildo
Tiohildo
27 de Maio de 2023 11:10

Salvo engano, segundo esse site abaixo, a IGPU do Ryzen Z1 Extreme é Radeon 780M e tem mesmo 2700 Mhz.
https://www.notebookcheck.net/AMD-Ryzen-Z1-Extreme-Processor-Benchmarks-and-Specs.716421.0.html

E segundo esse blog abaixo, a AMD fez um overhype desse VOPD, pois na prática a performance aumenta pouco.

AMD RDNA 3 VOPD Instructions Provide only a 4% Performance Boost in Ray-Traced Scenes: Will Improve Over Time

https://www.hardwaretimes.com/amd-rdna-3-vopd-instructions-provide-only-a-4-performance-boost-in-ray-traced-scenes-will-improve-over-time/

Juca
Juca
Responder a  Mário Armão Ferreira
27 de Maio de 2023 11:50

Quando vcs falam de melhoras falam de um suporte por software mais adequado ou estão a falar de modelos vindouros futuros de RDNA 3, porque 4% de cara é muito pouco…

Juca
Juca
Responder a  Mário Armão Ferreira
27 de Maio de 2023 12:39

Beleza, Mário, captado.

Tiohildo
Tiohildo
Responder a  Juca
27 de Maio de 2023 12:04

A melhoria é em relação ao compilador conseguir trabalhar melhor essas 4 instruções por ciclo para ter ganho efetivo de performance. Pode até melhorar com o tempo ( no sentido de otimizar o compilador com o passar do tempo ), mas eu duvido que esses 4% aumentem em ordem de grandeza relevante, tipo pra 40%.

Essa questão de 4 instruções por ciclo é complexa. Primeiro, parece que não são todas as instruções. Segundo que o compilador tem que ser otimizado pra usar de forma adequada pra ganhar mais performance. Terceiro que parece depender da carga na ALU. Eu colocaria essa tecnologia mais com um bônus, não a contaria como performance observável na maioria dos casos. Sobre essa perspectiva, esses 8,2 TFlops são altamente teóricos e em casos bem específicos.

Juca
Juca
Responder a  Tiohildo
27 de Maio de 2023 12:35

Então sendo simplista, em termos de performance está mais pra equivalência de um “4.1Tflops” com um “bonus” em alguma situações específicas. Por mais que em algumas situações possa vir a computar “8.2Tflops”, em teoria.

O problema real, que vejo, é que mesmo se fosse os 4.1Tflops, penso que deveria se algo próximo de um PS4 Pro ao menos (como se equivalesse um 1800p@30 vs 720p@45/60?!?), e ainda me parece que não é bem ao que se equivale… tudo bem que estamos falando de um PC genérico e portátil e não uma plataforma dedicada com programação própria, mas mesmos os charts de comparação com o steam deck me pareceu uma vantagem muito pequena para quase triplicar ou em teoria sextuplicar a capacidade do steam deck.

Last edited 11 meses atrás by Juca
Tiohildo
Tiohildo
Responder a  Juca
27 de Maio de 2023 13:04

Sobre seu primeiro parágrafo, eu entendo dessa maneira, mas posso estar errado.

Acredito que essa comparação de TFlops com ps4 pro não seja muito adequada, é outra arquiterura, GCN. O caso real da Digital Foundry foi que o ally tava rodando o god of war 1 fps uncap com quase a mesma performance do Ps4 fat ( o que eu acho bem razoável se olhar a idade do ps4 e seu tamanho, sem contar também a diferença de arquitetura ).
O steamdeck também acho que é rdna2 e o ally 3. Acho que comparação direta não é a melhor. O melhor foi comparar os casos reais de jogos, e a performance não foi lá tão melhor assim ( foi melhor mas não no nível do marketing), acho que teve alguns casos que foi pior. Também conta o fato de que talvez o software do ally não esteja tão refinado, ou seja, são muitas variáveis. A conclusão é que esses 8.2 Tflops são muito overhype mesmo.

Juca
Juca
Responder a  Tiohildo
27 de Maio de 2023 16:45

A minha comparação foi mais figurativa, mas é bom que você esclareça a situação. Eu quis dizer que a GPU do PS4 Pro parece conseguir mais performance com uma propaganda de tflops de 4.2, mas sei que essa não é uma comparação adequada, pois pra além das arquiteturas diferentes, a estruturação de núcleos, clocks e etc são diferentes, o que no fim só prova que a propaganda de Tflops não têm lá tanto valor se não falamos de uma mesma geração de chips e ainda assim desconsiderarmos todo o resto do sistema, como CPU, memória e etc, o que contam pra performance resultante.
Então foi mais uma questão de falsa equivalência tomando em conta o que se entrega.

A questão mais é termos um dispositivo de 700 dólares a entregar algo como um PS4 fat, embora, claro, esteja entregando um dispositivo completo, portátil, com tela, baixo consumo e bateria recarregável.

Last edited 11 meses atrás by Juca
Tiohildo
Tiohildo
Responder a  Juca
27 de Maio de 2023 23:08

Ok. Entendi o que você quis dizer.

Júlio Esteves
Júlio Esteves
27 de Maio de 2023 15:37

Prezados, tenho uma dúvida e agradeço quem possa me ajudar, tenho 1 Computador com:
_1 Processador AMD Ryzen 5 5600X Hexa-Core 3.7GHz (4.6GHz Turbo) 35MB ;
_1 Placa Mãe ASUS 520M-HVS que é PCIE 3, pretendo colocar uma Placa de vídeo RADEON RX 6650 XT MECH 2X OC, 8GB, GDDR6, 128-BIT que tem a interface PCIE 4.
Questiono se é possível usar uma placa de vídeo PCIE 4 numa placa mãe é PCIE 3?
Acredito que haverá perda de desempenho caso seja possível.

Tiohildo
Tiohildo
Responder a  Júlio Esteves
27 de Maio de 2023 15:57

Na teoria é possível. Sua placa de vídeo iria operar a pcie 3.0 no modo de compatibilidade com menos performance. Não sei se na prática tem alguma restrição. Melhor pesquisar bem.

Olha esse vídeo. Me parece que não afetou muito a performance. Mesmo assim pesquise bem, se puder testar antes, melhor.

https://youtu.be/3EWs3xwkwAc

Last edited 11 meses atrás by Tiohildo
Júlio Esteves
Júlio Esteves
Responder a  Tiohildo
27 de Maio de 2023 16:03

Grato pela resposta.

Hennan
Hennan
Responder a  Júlio Esteves
27 de Maio de 2023 17:38

Sem problemas e sem perda de performance. A única gpu que você não pode comprar é a 6500.

Hennan
Hennan
Responder a  Júlio Esteves
27 de Maio de 2023 17:40

Só um adendo. Se possível faria um esforço e subiria pra 6700xt ou 6750xt. Já vi por volta de 2200 aqui. Esses 4gb de vram farão muita diferença.

Júlio Esteves
Júlio Esteves
Responder a  Hennan
27 de Maio de 2023 20:00

Grato.

Júlio Esteves
Júlio Esteves
Responder a  Mário Armão Ferreira
27 de Maio de 2023 22:06

Grato.

Deto
Deto
27 de Maio de 2023 17:26

Tomara que esses portáteis não seja uma modinha e realmente tenha mercado para isso.

Os avanços nos notebooks, consoles portáteis e data centers acabam sempre refletindo no consoles de mesa tradicionais.

Enquanto no desktop podem jogar o clock lá para cima, nos video games não dá… Logo avanços em data centers, notebooks e consoles portáteis, que precisam ter consideração sobre validade de aumentar o consumo, acaba beneficiando os consoles de mesa tradicionais.

error: Conteúdo protegido