AWS e Cerebras: Inferência de IA 5x Mais Rápida

A parceria entre AWS e Cerebras acaba de anunciar a expansão do sistema de super chips CS-3 aos data centers da Amazon. O movimento, que funcionará através do serviço AWS Bedrock, altera radicalmente a estrutura atual de processamento computacional para acelerar modelos de IA. A grande inovação que impulsiona o anúncio é a adoção de uma arquitetura de “inferência desagregada”.

Como a Parceria entre AWS e Cerebras Muda o Jogo na Nuvem

Acelerando Modelos Open-Source e a Família AWS Nova

A fusão entre AWS e Cerebras disponibiliza a arquitetura detentora de recordes de velocidade para projetos em nuvem na escala massiva da Amazon. O hardware abrigará a aceleração da nova geração de modelos da Amazon, conhecidos como AWS Nova, assim como os principais e mais pesados modelos fundacionais open-source do mercado.

A superioridade bruta do hardware gerado pela união entre AWS e Cerebras deriva de seu design em escala de wafer (Wafer-Scale Engine ou WSE).

“O Wafer-Scale Engine (WSE) é o maior chip semicondutor do mundo, desenvolvido pela empresa Cerebras Systems especificamente para acelerar tarefas de Inteligência Artificial e aprendizado profundo.”

Ao carregar todos os pesos de inteligência do modelo de linguagem (LLM) diretamente na memória SRAM do chip sem transitar continuamente, a Cerebras estabelece uma taxa monstruosa de largura de banda de memória, uma característica vital para o ganho real de velocidade em tarefas longas.

O Que é a Inferência Desagregada?

AWS Trainium no “Prefill” e Cerebras WSE no “Decode”

Se analisarmos os bastidores das requisições de IAs generativas, veremos que a engenharia obedece a duas fases muito distintas: prefill (a compressão e leitura da pergunta de origem) e o decode (a geração do texto como resposta, caractere por caractere). Nas engenharias padrões, todas as aceleradoras, incluindo as GPUs poderosas, efetuam ambos no mesmo circuito em bloco. Isso causa estrangulamento. O prefill queima capacidade livre (compute bound), enquanto prever pregressivamente a próxima resposta do modelo rouba toda a banda de limite da memória (memory bound).

A união dissolve esse obstáculo usando a inferência desagregada:

Prefill no AWS Trainium: O chip focado em custo/benefício e alto compute da Amazon foi escalado apenas para devorar grandes trechos iniciais da pergunta e computar o KV Cache.
Transferência em Baixa Latência: Assim que o processamento do input base é mastigado, as entranhas do Trainium transmitem o resultado pelo EFA (Elastic Fabric Adapter) — a poderosa via de interconexão em altíssima velocidade de rede da AWS.
Decode no WSE da Cerebras: Livres do primeiro trabalho pesado, os milhares de núcleos da Cerebras recebem as instruções processadas e dedicam toda sua banda para “cuspir” tokens numa rapidez desumana, aproveitando que a IA mora inteira em sua matriz de SRAM.

Integrar a melhor expertise de processamento das duas companhias entrega 5 vezes mais volume de produção de tokens contínuos no mesmo espaço que um maquinário comum monopolizaria para fazer tudo simultaneamente no mesmo cluster.

O Impacto Direto no “Agentic Coding”

Por Que Agentes de IA Exigem Milhares de Tokens por Segundo?

A demanda dessa aceleração na largura de tokens contínuos não surgiu para agilizar conversas soltas ou respostas a curiosidades aleatórias com a IA em formato de chatbot, onde 100 tokens por segundo são satisfatórios para um humano ler. A dor estrutural que exige IAs extremamente massivas está na ascensão dos códigos gerados autonomamente, o “agentic coding”.

Agentes que varrem bugs ou elaboram repositórios inteiros disparam, em sua operação rotineira de leitura ou repasse contextual, até 15 vezes mais requisições combinadas na média. Interromper times inteiros de Engenharia, presos e ociosos, esperando agentes cuspirem e analisarem arquivos inteiros limitará as revoluções e escaladas do setor B2B de softwares até essas limitações em hardware sumirem. A taxa alcançada por chips focados e desagregados entrega um poder implacável na borda: 3.000 tokens injetados em uma velocidade estilhaçante por segundo na pipeline dos times focados com Inteligência Artificial.

Implementação e Disponibilidade

Se sua arquitetura não comporta rotas desproporcionais e fixas de “prefill / decode”, a colaboração permitirá que companhias escolham roteamentos convencionais entre seus trabalhos no serviço. Onde tarefas instáveis ou mistas sobem ou descem de performance de improviso, mantêm-se o design escalável clássico (agregado). Para frentes unicamente direcionadas, a nova solução passa a estar totalmente liberada para tracionar o ambiente nos data centers em lançamento para a agenda global nos próximos meses.

Para entender mais sobre a infraestrutura base, você pode conferir a documentação oficial de Machine Learning da AWS. Além disso, se o seu foco é escalar esses modelos, não deixe de ler nossos artigos sobre Inteligência Artificial.

AWS e Cerebras Unem Forças! Inferência Desagregada Promete 5x Mais Velocidade para IA