Acabei de perceber algo que tem remodelado silenciosamente todo o jogo da infraestrutura de IA, e honestamente é impressionante como há tão poucas pessoas a falar sobre isso.



Durante anos, todos estivemos obcecados com a escassez de GPU—é aí que acontece o cálculo, certo? Mas aqui está a questão: temos olhado para o problema de forma errada. A verdadeira limitação já não é a inferência. É o CPU. E quero dizer a sério—quando precisas orquestrar fluxos de trabalho complexos de agentes, lidar com chamadas de API, gerir bases de dados e lidar com janelas de contexto enormes que não cabem na memória da GPU, de repente o teu processador torna-se o ponto de estrangulamento enquanto a tua GPU cara fica ali à espera.

Deixa-me explicar o que realmente está a acontecer no mercado. A CEO da AMD, Lisa Su, confirmou basicamente que esta mudança é real. A receita do centro de dados deles atingiu 5,4 mil milhões de dólares no último trimestre, com um aumento de 39% face ao ano anterior. Os processadores EPYC de quinta geração representam mais da metade da receita de CPUs de servidores, e estamos a ver mais de 50% de crescimento em instâncias na nuvem a correr com EPYC. Pela primeira vez, a AMD está a conquistar mais de 40% do mercado de CPUs de servidores. Isso não é por acaso—é porque de repente toda a gente percebeu que precisa de uma potência de CPU séria para realmente fazer correr agentes de IA em escala.

Entretanto, a Intel tem estado a correr atrás, mas a jogar bem. Acabaram de assinar um acordo plurianual com o Google especificamente para implementar processadores Xeon nos centros de dados de IA. A proposta? CPUs e aceleradores especializados são agora os verdadeiros motores de desempenho, não apenas componentes de suporte. Elon Musk até encomendou chips personalizados à Intel para o seu projeto Terafab—isso é um sinal enorme de para onde a infraestrutura está a caminhar.

Aqui está o porquê de isto importar: as cargas de trabalho de agentes são fundamentalmente diferentes de chatbots. Com agentes, não estás só a gerar tokens—estás a fazer raciocínio multi-etapas, a orquestrar APIs, a gerir estado, a ler e escrever em bases de dados. Um artigo do Georgia Tech do ano passado mostrou que o tempo de resposta do lado do CPU pode representar entre 50% e 90% da latência total. A GPU está pronta a trabalhar, mas o CPU ainda está à espera das respostas das ferramentas. E acrescenta-se que as janelas de contexto agora ultrapassam um milhão de tokens, e de repente precisas de uma memória CPU enorme e largura de banda só para armazenar caches KV que não cabem nas GPUs.

A resposta da NVIDIA é interessante. O CPU Grace tem apenas 72 núcleos, comparado com os 128 da AMD ou a linha típica da Intel. Mas isso é intencional—estão a otimizar para eficiência entre CPU e GPU, em vez de contar apenas núcleos brutos. Estão a promover a ideia de que o CPU é realmente um centro de coordenação, não um processador de uso geral. Com a interconexão NVLink a atingir 1,8 TB/s, o CPU pode aceder diretamente à memória da GPU, o que muda completamente a forma como geres esses enormes caches KV.

O sinal do mercado é claro e alto. O Bank of America prevê que o mercado de CPU possa duplicar de $27 mil milhões para $60 mil milhões até 2030, quase inteiramente impulsionado por IA. E, para perceberes melhor—na parceria de $38 mil milhões da Amazon com a OpenAI, eles planeiam explicitamente implementar dezenas de milhões de CPUs. Essa é a nova métrica. Já não estamos a falar de centenas de milhares de GPUs; estamos a falar de construir camadas inteiras de infraestrutura de orquestração de CPU.

O que realmente está a acontecer é que estamos a passar de uma era limitada por GPU para uma era de eficiência a nível de sistema. As empresas que descobrirem como equilibrar a colaboração CPU-GPU, gerir hierarquias de memória enormes e lidar com fluxos de trabalho complexos de agentes de forma eficiente—são essas que vão vencer. Já não se trata apenas de componentes individuais. Trata-se de o sistema inteiro trabalhar em conjunto. E se não estiveres a pensar na tua estratégia de CPU em 2026, já estás atrasado.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar