Os aceleradores AMD Radeon Instinct™ oferecem recursos de machine intelligence sem precedentes
A AMD está lançando uma nova era na computação instintiva com seus aceleradores Radeon Instinct, que logo serão enviados aos parceiros para energizar suas soluções HPC e Deep Learning.
Com a primeira visualização em dezembro de 2016, esta nova linha de aceleradores de servidor GPU –Radeon Instinct ™ MI25, Radeon Instinct MI8 e Radeon Instinct MI6 – juntamente com a plataforma de software aberta da AMD ROCm 1.6, ajudará consideravelmente a aumentar o desempenho, eficiência e a facilidade de implementação, em alta velocidade através de inferência de Deep Learning e treinamento para acelerar a unidade de machine intelligence.
Os três aceleradores iniciais do Radeon Instinct são projetados para abordar um vasto leque de aplicações de machine intelligence:
- O Acelerador Radeon Instinct™ MI25, baseado na arquitetura da GPU “Vega” com um processo de 14nm FinFET, será o grande acelerador de treinamento mundial para o machine intelligence em grande escala e aplicações de aprendizagem profundas de datacenter. O MI25 proporciona desempenho superior de FP16 e FP32[1] em um cartão de servidor de GPU único passivamente resfriado com 24.6 TFLOPS de FP16 ou 12.3 TFLOPS de FP32 máximo desempenho através de suas 64 unidades de computação (4,096 processadores de fluxo). Com 16GB de banda larga ultra alta de memória HBM2 ECC[2] GPU e até 484 GB/s de banda larga de memória, o projeto Radeon Instinct MI25 é otimizado para aplicações massivas paralelas com grandes conjuntos de dados para as cargas de trabalho dos sistemas de machine inteligence e HPC-class.
- O Acelerador Radeon Instinct™ MI8, que aproveita o alto desempenho e a eficiência energética da arquitetura de GPU “Fiji”, é um pequeno fator de forma HPC e acelerador de inferência com 8.2 TFLOPS de pico FP16|FP32 com potência de placa inferior a 175W e 4GB de memória de alta banda larga (HBM) em uma interface de memória de 512 bits. O MI8 é bem adequado para inferências de machine learning e aplicativos HPC.
- O Acelerador Radeon Instinct™ MI6, baseado na aclamada arquitetura GPU “Polaris”, é um acelerador de inferência passivamente arrefecido com 5.7 TFLOPS de pico e performance FP16|FP32 com potência de placa máxima a 150W e 16GB de memória ultrarrápida de GPU GDDR5 em uma interface de memória de 256 bits. O MI6 é um acelerador versátil ideal para HPC e machine learning de inferência e implantações de treinamento de borda.
O hardware Radeon Instinct é alimentado por soluções de software aberto da AMD, incluindo:
- Planejado para implantação em 29 de junho, a plataforma de software ROCm 1.6 com melhorias de desempenho e agora com suporte para MIOpen 1.0 é escalável e totalmente open source, fornecendo uma solução de computação heterogênea, eficiente e flexível, para uma nova classe de Hyperscale híbrido e sistema de cargas de trabalho HPC-class. Composto por um driver de código-fonte aberto Linux® otimizado para computação escalável multi-GPU, a plataforma de software ROCm fornece vários modelos de programação, a ferramenta de conversão HIP CUDA e suporte para aceleração de GPU usando o Heterogeneous Computing Compiler (HCC).
- A biblioteca de Open-Source MIOpen GPU-acelerado está disponível agora com a plataforma ROCm e suporta estruturas de machine intelligence incluindo suporte planejado para Caffe, TensorFlow e Torch.
Pretendemos enviar produtos Radeon Instinct aos nossos parceiros de tecnologia (incluindo Boxx, Colfax, Exxact Corporation, Gigabyte, Inventec e Supermicro, entre outros) para abastecer a sua aprendizagem profunda e soluções HPC começando no 3º trimestre.
Para mais informações, visite Radeon.com/Instinct.
[1] Cálculos de TFLOPS: Cálculos FLOPS são realizados tomando o relógio de mecanismo do estado DPM mais alto e multiplicando-o por 64 CUs por GPU. Em seguida, multiplicar esse número por 64 unidades de shader, que existem em cada CU. Então, esse número é multiplicado por 2 FLOPS por clock para FP32. Para calcular TFLOPS para FP16, foram usados 4 FLOPS por clock. A taxa de FP64 TFLOPS é calculada usando a taxa de 1/16.
[2] Suporte ECC é limitado à memória HBM2 e proteção ECC não é fornecida para estruturas internas de GPU.