Créditos: Intel

Intel detalha maiores mudanças na arquitetura de CPUs, GPUs & IPUs em uma geração

Empresa espera impulsionar a próxima era da computação para datacenters, computação na borda e sistemas-cliente com suas inovações tecnológicas

Durante o Intel’s Architecture Day 2021, Raja Koduri, vice-presidente sênior e gerente geral da divisão de Arquitetura, Gráficos e Software da Intel, e os arquitetos da empresa apresentaram detalhes sobre diversos temas.

A lista inclui duas novas arquiteturas x86; a primeira arquitetura híbrida da Intel, codinome “Alder Lake", e o escalonamento inteligente de cargas de trabalho Intel Thread Director; Sapphire Rapids, nova geração do processador Xeon Scalabe da Intel para datacenters; unidades de processamento de infraestrutura; e novas arquiteturas gráficas, entre elas a microarquitetura Xe HPG  Xe HPC, e Ponte Vecchio e Alchemist SoCs. 

Essas novas arquiteturas vão impulsionar novos produtos de alto desempenho e estabelecer as bases para a próxima era de inovação da Intel, que visa atender a demandas cada vez maiores por poder computacional. Abaixo, preparamos um resumo sobre todas essas novidades.

x86 Cores: “Gracemont” mais eficiente

A nova microarquitetura Efficient da Intel, conhecida anteriormente pelo codinome “Gracemont”, foi projetada para garantir a transferência eficiente de tarefas em segundo plano para multitarefas modernas. 

Segundo a empresa, essa é a microarquitetura x86 mais eficiente da Intel com um alvo agressivo de área de silício para que as cargas de trabalho de vários núcleos possam ser escaladas com o número de núcleos, oferecendo ainda uma ampla faixa de freqüência.

A microarquitetura e o esforço de projeto focado permitem que o núcleo eficiente funcione em baixa voltagem para reduzir o consumo geral de energia, ao mesmo tempo em que cria a altura de potência para operar em freqüências mais altas. Isto permite que o Efficient-core aumente o desempenho para cargas de trabalho mais exigentes.

O núcleo Efficient pode utilizar diversos avanços técnicos para priorizar cargas de trabalho sem desperdiçar poder de processamento e para melhorar diretamente o desempenho com recursos de melhoria de instruções por ciclo (IPC), entre eles:

  • Cache de destino de desvio para 5 mil entradas que resulta em previsão de desvio mais precisa;
  • Cache de instruções de 64 Kb para manter as instruções úteis sem gastar energia do subsistema de memória;
  • Primeiro decodificador de comprimento de instrução sob demanda da Intel que gera informações de pré-decodificação;
  • Decodificador out of order em cluster da Intel que permite decodificar até 6 instruções por ciclo, mantendo a eficiência energética;
  • Recursos robustos de segurança compatíveis com as tecnologias de aplicação de controle de fluxo e de proteção de redirecionamento de virtualização da Intel.
  • A implementação do AVX ISA, juntamente com novas extensões para apoiar as operações de inteligência artificial (IA) inteira

Em comparação com Skylake, a microarquitetura para CPU mais prolífica da Intel, e considerando o desempenho de thread único, o núcleo Efficient tem desempenho 40% maior com o mesmo consumo de mesma energia ou oferece o mesmo desempenho consumindo 40% menos energia. Já para desempenho em termos de rendimento, com quatro núcleos, oferece taxa de transferência 80% maior consumindo menos energia do que dois núcleos Skylake executando quatro threads ou o mesmo desempenho de rendimento enquanto consome 80% menos energia.

Core Performance: maior amplitude e profundidade

A nova microarquitetura Performance da Intel, conhecida anteriormente pelo codinome "Golden Cove", foi projetada para oferecer alta velocidade e ultrapassar os limites de baixa latência e do desempenho de aplicações de thread único. As cargas de trabalho estão crescendo em termos de código e exigindo mais recursos de execução. 

Conjuntos de dados também estão crescendo muito junto com os requisitos de largura de banda. A nova microarquitetura Performance da Intel garante um aumento significativo na eficiência energética para suportar melhor aplicações.

- Continua após a publicidade -

O núcleo Performance apresenta uma arquitetura mais ampla, mais profunda e mais inteligente, de acordo com a empresa:

  • Mais ampla: 6 decodificadores (em vez de 4), 8 caches µop (em vez de 6), 6 portas de alocação (em vez de 5) e 12 portas de execução (em vez de 10);
  • Mais profunda: arquivos de registro maiores, arquivos de registro físico maiores, buffer de reordenação mais profundo com 512 entradas;
  • Mais inteligente: melhor precisão na previsão de desvios, menor latência L1 efetiva reduzida, otimizações da largura de banda preditiva para gravação completa em L2.

O núcleo Performance é o núcleo de CPU de maior desempenho que a Intel já desenvolveu e supera os limites de baixa latência e desempenho de aplicação de thread único com:

  • Melhoria geomeana de cerca de 19% em uma ampla gama de cargas de trabalho sobre a 11ª geração da arquitetura Intel Core (Cypress Cove) em isofrequência para desempenho de uso geral;
  • Exposição para mais paralelismo e aumento no paralelismo de execução;
  • Intel Advanced Matrix Extensions, nova geração de avanços integrados para aceleração de IA, indicadas para inferência de aprendizado profundo e desempenho dos treinamentos, inclui hardware dedicado e nova arquitetura de conjunto de instruções para realizar operações de multiplicação de matrizes muito mais rápido;
  • Menor latência e melhores recursos para aplicações que trabalham com grandes volumes e grandes volumes de código.

Alder Lake para sistemas-clientes

A nova arquitetura da Intel para sistemas-clientes, codinome “Alder Lake", é a primeira arquitetura híbrida da Intel. Pela primeira vez, integra dois tipos de núcleo - núcleo Performance e núcleo Efficient - para oferecer excelente desempenho em todos os tipos de carga de trabalho. Alder Lake foi construído com base no processo do Intel 7 e é compatível com as memórias mais recentes e os sistemas de IO mais velozes.

O Alder Lake oferecerá um desempenho que pode ser dimensionado de modo a atender todos os segmentos de sistemas-cliente, de laptops ultraportáteis a desktops de entusiastas e de uso corporativo, usando uma única arquitetura SoC altamente escalonável com três pontos de destaque em seu design:

  • Dois chips de alto desempenho máximo em soquete, com os melhores desempenho, eficiência energética, memórias e sistemas de IO;
  • Pacote BGA móvel de alto desempenho que adiciona sistema gráfico Xe maior e conectividade Thunderbolt 4;
  • Pacote de baixo consumo e alta densidade com sistema de IO otimizado. 

O desafio de construir uma arquitetura altamente escalonável está em atender a maiores demandas de largura de banda dos agentes computacionais e de IO sem comprometer a eficiência energética. Para superar esse desafio, a Intel projetou três malhas independentes, cada um com heurísticas em tempo real baseadas na demanda:

  • A malha Computacional pode suportar até 1000 GB/s - o que quer dizer 100 GB/s por núcleo ou por cluster - e conecta os núcleos e sistema gráfico à memória por meio do cache de último nível. 
  • A malha do Sistema de IO suporta até 64 GB/s, conectando os diferentes tipos de IO bem como dispositivos internos, e pode alterar a velocidade perfeitamente sem interferir na operação normal do dispositivo, selecionando a velocidade da malha para corresponder à quantia necessária de transferência de dados;
  • A malha da Memória pode suportar até 204 Gb/s de dados e modificar dinamicamente a largura e a velocidade do barramento para suprir vários pontos de operação em termos de alta largura de banda, baixa latência ou baixo consumo de energia. 

Tecnologia Intel Thread Director

Para que os núcleos Perfomance e Efficient trabalhem perfeitamente com o sistema operacional, a Intel desenvolveu uma tecnologia aprimorada de escalonamento chamada Intel Thread Director.

Construído diretamente no hardware, o Thread Director fornece telemetria de baixo nível nos núcleos e a combinação de instruções de thread, permitindo que o sistema operacional envie o thread correto para o núcleo certo no momento certo. O Thread Director é dinâmico e adaptável - ajustando as decisões de escalonamento às necessidades de computação em tempo real - em vez de usar uma abordagem simples baseada em regras estáticas.

Tradicionalmente, o sistema operacional toma decisões com base nas estatísticas limitadas disponíveis, como tarefas em primeiro e segundo plano. O Thread Director adiciona uma nova dimensão ao:

- Continua após a publicidade -
  • Usar telemetria de hardware para direcionar os threads que exigem mais desempenho para o núcleo de alto desempenho adequado naquele momento;
  • Monitorar o mix de instruções, o estado do núcleo e outras medições relevantes da microarquitetura em nível granular, ajudando o sistema operacional a tomar decisões de escalonamento mais inteligentes;
  • Otimizar o Intel Thread Director para ter o melhor desempenho no Windows 11 por meio da colaboração com a Microsoft;
  • Estender o API PowerThrottling, que permite aos desenvolvedores especificar explicitamente os atributos de qualidade de serviço para seus threads;
  • Aplicar uma nova classificação EcoQoS que informa o escalonador se o thread prefere ter eficiência energética (esse threads são programados para serem executados pelos núcleos Efficient cores).

Microarquitetura Xe HPG e SoCs 

Xe HPG é uma nova microarquitetura de sistemas gráficos discretos projetada para entusiastas de alto desempenho, que abrangem desde cargas de trabalho de jogos até de criação. A microarquitetura Xe HPG trabalha com a família Alchemist SoCs, e os primeiros produtos devem chegar ao mercado no primeiro trimestre de 2022 sob a marca Intel Arc. A microarquitetura Xe HPG apresenta um novo core Xe, elemento com foco em computação, programável e escalável.

O roadmap do sistema gráfico inclui o Alchemist (anteriormente conhecido como DG2), Battlemage, Celestial e Druid SoCs. Durante a apresentação, a Intel detalhou a microarquitetura e fez demonstrações usando-a em um Alchemist SoC de pré-produção, mostrando jogabilidade real, fazendo um teste de integridade com o Unreal Engine 5, e uma nova tecnologia de superamostragem baseada em neural chamada XeSS.

O Alchemist SoCs, baseados na microarquitetura Xe HPG, foram projetados para oferecer muita escalabilidade e eficiência computacional com importantes recursos:

  • Até 8 Render Slices com função fixa projetados para DirectX 12 Ultimate;
  • Novos núcleos Xe com 16 motores vetoriais e 16 motores de matriz (referidos como XMX - Xe Matrix eXtensions), cache e memória local compartilhada;
  • Novas Ray Tracing Units compatíveis com DirectX Raytracing (DXR) e Vulkan Ray Tracing;
  • Frequência 1,5x maior e desempenho/watt 1,5x melhor em comparação com a microarquitetura Xe LP por meio de uma combinação dos elementos de arquitetura, projeto lógico, projeto de circuito, tecnologia de processo e otimizações de software1;
  • Fabricado no nó de processo N6 da TSMC.

O ponto central dos esforços gráficos da Intel é a abordagem software em primeiro lugar:

  • A arquitetura Xe está sendo projetada em estreita colaboração com desenvolvedores, promovendo alinhamento aos padrões da indústria; 
  • A primeira GPU de alto desempenho da Intel para jogos prioriza desempenho e qualidade centrada no design de drivers que abrange produtos gráficos integrados e discretos em uma base de código unificada;
  • A Intel concluiu uma rearquitetura dos principais componentes de drivers gráficos, especificamente o gerenciador de memória e compilador, resultando em uma melhor taxa de transferência para títulos vinculados à CPU de até 15% (e até 80%) e tempo de carregamento de jogos até 25% melhor.

XeSS na aceleração XMX de Inteligência Artificial (AI)

O XeSS faz uso do Alchemist’s na aceleração XMX de Inteligência Artificial (AI) para oferecer uma nova tecnologia de upscaling que permite apresentar visuais de alto desempenho e alta fidelidade. Usa aprendizado profundo para sintetizar imagens que estão muito próximas da qualidade da renderização nativa de alta resolução.

Com o XeSS, os jogos que só seriam reproduzidos em configurações de qualidade inferior ou resoluções mais baixas podem ser executados sem problemas em configurações e resoluções de qualidade superior.

  • O XeSS funciona reconstruindo detalhes no nível do subpixel a partir de pixels vizinhos, bem como quadros anteriores compensados ??por movimento;
  • A reconstrução é realizada por uma rede neural treinada para oferecer alto desempenho e ótima qualidade, com aumento de desempenho de até 2x;
  • O XeSS oferece superamostragem baseada em IA em um amplo conjunto de hardware, incluindo sistemas gráficos integrados, aproveitando o conjunto de instruções DP4a;

Vários desenvolvedores de jogos estão envolvidos com XeSS. O SDK para a versão inicial do XMX estará disponível para ISVs este mês, com a versão DP4a disponível prevista para ainda este ano.

Nova geração do processador Intel Xeon Scalable (“Sapphire Rapids”)

O Sapphire Rapids representa o maior avanço da plataforma para datacenters. O processador oferece desempenho computacional significativo em vários usos dinâmicos e cada vez mais exigentes e é otimizado de acordo com cargas de trabalho para oferecer alto desempenho em modelos computacionais elásticos, como nuvem, microsserviços e IA.

No centro do Sapphire Rapids está uma arquitetura SoC modular que usa a tecnologia de empacotamento EMIB da Intel para oferecer escalabilidade significativa e, ao mesmo tempo, manter os benefícios de uma interface monolítica de CPUs.

O Sapphire Rapids fornece uma arquitetura Unified Memory Access única e balanceada, com cada thread tendo acesso total a todos os recursos em todos os blocos, incluindo caches, memória e sistemas de IO. O resultado é uma largura de banda consistente de baixa latência e grande seção transversal por todo o SoC.

O Sapphire Rapids foi construído baseado na tecnologia de processo do Intel 7 e apresenta a nova microarquitetura Performance da Intel, projetada para oferecer alta velocidade e ultrapassar os limites de baixa latência e do desempenho de aplicações de thread único. 

O Sapphire Rapids oferece a mais ampla gama de aceleradores relevantes para datacenters, incluindo a nova arquitetura de conjunto de instruções e IP integrado para elevar o desempenho de vários tipos de cargas de trabalho e usos. Os novos motores de aceleração integrados incluem:

Intel Accelerator Interfacing Architecture (AIA)

Trabalha com envio, sincronização e sinalização eficientes para aceleradores e dispositivos; 

Intel Advanced Matrix Extensions (AMX)

Um novo mecanismo de aceleração introduzido no Sapphire Rapids que oferece grande aceleração do processamento do tensor no centro dos algoritmos de aprendizado profundo. Ele pode fornecer um grande aumento nas capacidades de computação com 2K INT8 e 1K BFP16 operações por ciclo.

Usando silício Sapphire Rapids, os micro benchmarks de matriz interna otimizados são executados 7x mais rápido usando as novas extensões do conjunto de instruções Intel AMX em comparação com uma versão do mesmo micro benchmark usando instruções Intel AVX-512 VNNI, proporcionando ganhos substanciais de desempenho entre as cargas de trabalho de IA tanto para treinamento quanto para inferência.

Intel Data Streaming Accelerator (DSA)

Projetado para aliviar as tarefas mais comuns de movimentação de dados que causam a sobrecarga observada em implantações em escala de datacenters. Aprimora o processamento dessas tarefas para garantir melhor desempenho geral da carga de trabalho e pode e mover dados entre CPU, memória e caches, bem como todos os recursos de memória, armazenamento e rede interligados.

Esses avanços nas arquiteturas permitem que o Sapphire Rapids ofereça excelente desempenho logo depois de implantado para uso com a mais ampla gama de cargas de trabalho e modelos de nuvem, datacenters, redes e edge computing inteligente. O processador foi desenvolvido para impulsionar as transições tecnológica do setor com memórias avançadas e uma nova geração de sistema de IO, como as tecnologias PCIe 5.0, CXL 1.1, DDR5 e HBM.

Unidade de Processamento de Infraestrutura (IPU)

A IPU é um dispositivo de rede programável projetado para permitir que provedores de serviços de comunicação e nuvem reduzam a sobrecarga e elevem desempenho das unidades centrais de processamento (CPUs).

A arquitetura da Intel baseada em IPU oferece várias vantagens principais:

  • Uma forte separação das funções de infraestrutura e carga de trabalho de locatários que a eles assumir o controle total da CPU;
  • Um operador de nuvem que pode trazer as tarefas de infraestrutura para a IPU, maximizando a utilização da CPU e receitas;
  • A IPU pode gerenciar o tráfego de armazenamento, reduzindo a latência e, ao mesmo tempo, usando a capacidade de armazenamento de maneira eficiente por meio de uma arquitetura de servidores sem disco. Com a IPU, os clientes podem utilizar os recursos melhor dispondo de uma solução segura, programável e estável que permite equilibrar processamento e armazenamento.

Reconhecendo que “não há um tamanho único”, a Intel apresentou uma visão mais aprofundada de sua arquitetura IPU com os novos membros da família, todos desenvolvidos para lidar com a complexidade de datacenters diversificados e dispersos.

Mount Evans é a primeira IPU ASIC da Intel. Foi desenvolvida em conjunto com um importante provedor de serviços de nuvem e integra lições extraídas de várias gerações de FPGA SmartNICs.

  • Pronto para hiperescala, oferece rede de alto desempenho e descarga de virtualização de armazenamento, mantendo um alto nível de controle;
  • Fornece o melhor mecanismo de processamento de pacotes programáveis de sua classe, permitindo casos de uso, como firewalls e roteamento virtual;
  • Implementa uma interface de armazenamento NVMe acelerada por hardware ampliada a partir da tecnologia Intel Optane para emular dispositivos NVMe;
  • Implementa criptografia avançada e aceleração de compressão usando a tecnologia Quick Assist de alto desempenho da Intel;
  • Pode ser programada usando ambientes de software existentes e usados comumente, incluindo DPDK, SPDK. O pipeline pode ser configurado utilizando a pioneira linguagem de programação P4 da divisão Barefoot Switch da Intel.

Oak Springs Canyon é uma plataforma de IPU de referência construída com base no Intel Xeon-D e no Intel Agilex FPGA que:

  • Alivia as funções de virtualização de rede, como Open Virtual Switch (OVS), e funções de armazenamento, como NVMe over Fabric e RoCE v2, e fornece um bloco de criptografia reforçado, garantindo uma interface de rede Ethernet 2x de 100 Gb mais segura e de alta velocidade;
  • Permite a parceiros e clientes da Intel personalizar soluções usando o Intel Open FPGA Stack, uma infraestrutura de hardware e software de código acessível escaláveis;
  • Pode ser programada usando ambientes de software existentes e usados comumente, incluindo DPDK e SPDK que foram otimizados sobre a plataforma x86.

A Intel Plataforma de Desenvolvimento e Aceleração N6000, de codinome Arrow Creek, é um SmartNIC projetado para uso com servidores baseados em Xeon que:

  • Possui o FPGA Agilex da Intel, líder da indústria em termos de potência, eficiência e desempenho, e o controlador Ethernet 800 Series da Intel  para oferecer aceleração para redes 100G de alto desempenho;
  • Suporta várias cargas de trabalho de infraestrutura, permitindo que provedores de serviços de comunicação (CoSPs) trabalhem com cargas de trabalho aceleradas e flexíveis, como Juniper Contrail, OVS e SRv6, contando com os excelentes resultados do PAC-N3000 da Intel, que já está sendo implantado em alguns dos principais CoSPs do mundo.

Xe HPC e Ponte Vecchio

O Ponte Vecchio, baseado na microarquitetura Xe HPC, oferece FLOPs líderes do setor e densidade computacional para acelerar cargas de trabalho de IA, HPC e análise avançada. A Intel divulgou informações sobre IP block da microarquitetura Xe HPC, incluindo 8 motores vetoriais e de matriz (referidos como XMX - Xe Matrix eXtensions) por núcleo Xe; informações sobre Slice e Stack; e informações sobre blocos, entre elas nós de processo para os blocos Compute, Base e Xe Link.

No Architecture Day, a Intel divulgou que o silício Ponte Vecchio está demonstrando um desempenho de liderança, estabelecendo um recorde da indústria tanto em inferência quanto em produtividade de treinamento em um popular benchmark de IA. O desempenho do silício A0 da Intel está fornecendo taxa de transferência maior que 45 TFLOPS FP32, mais de 5 TBps de largura de banda Memory Fabric e mais de 2 TBps de largura de banda de conectividade. 

A Intel também fez uma demonstração do desempenho de inferência ResNet, que atingiu mais de 43.000 imagens por segundo e mais de 3,400 imagens por segundo com treinamento ResNet, ambas marcas a caminho de assumir a liderança em termos de desempenho.

O Ponte Vecchio é composto por vários designs complexos em blocos, montados em um esquema EMIB Tile que permite conexões de baixa potência e alta velocidade entre os blocos. Esses são colocados juntos em um empacotamento Foveros que cria um empilhamento 3D de silício ativo para oferecer densidade de interconexão e consumo de energia. Uma interconexão MDFI de alta velocidade permite aumentar de uma para duas pilhas.

Compute Tile é um pacote denso de núcleos Xe e é o centro do Ponte Vecchio .

  • Um bloco tem 8 núcleos Xe com um total de 4 MB de cache L1, essenciais para garantir computação com eficiência energética;
  • Construído com base na N5, a tecnologia de processo mais avançada da TSMC; 
  • A Intel abriu o caminho com a definição de infraestrutura de design e fluxos de ferramentas e a metodologia para testar e verificar blocos para este nó;
  • O bloco tem uma saliência extremamente pequena de 36 mícrons para empilhamento 3D com Foveros

Base Tile é o tecido de conexão do Ponte Vecchio. É uma grande matriz construída em Intel 7 otimizada para a tecnologia Foveros.

  • O Base Tile é onde todos os componentes complexos de IO e alta largura de banda se juntam com a infraestrutura SOC - PCIe Gen5, memória HBM2e, links MDFI para conectar os blocos e pontes EMIB; 
  • Uma superlargura de banda 3D se conecta com uma alta interconexão 2D, e uma baixa latência transforma isso em uma máquina de conectividade infinita;
  • A equipe de desenvolvimento de tecnologia da Intel trabalhou para atender aos requisitos de largura de banda, saliência e integridade do sinal.

Por fim, Xe Link Tile faz a conectividade entre GPUs suportando 8 links por bloco.

  • Essencial para aumentar a escala da HPC e da IA;
  • Visando os Serdes mais rápidos suportados pela Intel - até 90G;
  • Este bloco foi adicionado para permitir o escalonamento para o supercomputador exascale Aurora. 

O Ponte Vecchio está em validação e tem uma amostragem limitada para clientes. Será lançado em 2022 para os mercados de HPC e IA.

oneAPI: liberdade diante de linguagens e modelos proprietários de programação

A iniciativa oneAPI fornece uma pilha de software aberta e unificada com base em padrões que envolve múltiplas arquiteturas e fornecedores, permitindo que os desenvolvedores se libertem de linguagens e modelos de programação proprietários.

Já existem Data Parallel C++ (DPC++) e implementações oneAPI para GPUs NVIDIA e AMD e CPUs Arm. A oneAPI está sendo amplamente adotada por ISVs, fornecedores de sistemas operacionais, usuários finais e academia.

Os principais líderes do setor estão ajudando a desenvolver a especificação para apoiar mais casos de uso e arquiteturas. A Intel também oferece produtos com o oneAPI Base Toolkit, que integra compiladores, analisadores, depuradores e ferramentas de portabilidade além da linguagem de especificação e das bibliotecas.

A oneAPI oferece compatibilidade entre arquiteturas, elevando os níveis de produtividade e inovação dos desenvolvedores:

  • Há mais de 200.000 instalações únicas dos kits de ferramentas oneAPI da Intel;
  • Mais de 300 aplicações implantadas de modelos de programação unificada da oneAPI;
  • Mais de 80 aplicações de HPC e IA estão funcionando na microarquitetura Xe HPC usando os kits de ferramentas Intel oneAPI;
  • A especificação provisória da versão 1.1 lançada em maio adiciona novas interfaces gráficas para cargas de trabalho de aprendizado profundo e bibliotecas de raytracing avançado e deve ser finalizada até o final do ano.

Fonte: Intel
Assuntos
Tags
  • Redator: Wikerson Landim

    Wikerson Landim

    Jornalista desde 2003 e atual Editor dos sites Adrenaline e Mundo Conectado. Em quase duas décadas, foi editor de diversos sites de tecnologia, games e entretenimento, além de produtor de conteúdo para sites corporativos. Nas horas vagas, assume o volante para dirigir caminhões no Euro Truck e em todos os jogos de corrida que surgirem pela frente.

O que você achou deste conteúdo? Deixe seu comentário abaixo e interaja com nossa equipe. Caso queira sugerir alguma pauta, entre em contato através deste formulário.