A Google lança os modelos open source Gemma 4: «Inferência no dispositivo» reforça a eficiência dos fluxos de trabalho de agentes de IA

ChainNewsAbmedia

2026-04-03 03:24:51

A Google lançou oficialmente a Gemma 4 a 2 de abril de 2026, como um dos modelos de código aberto mais poderosos até à data. A Gemma 4 alcançou avanços significativos na chamada de funções nativa, nos fluxos de trabalho de agentes e na perceção multimodal, e adotou uma licença Apache 2.0 amiga do comércio, trazendo aos programadores e empresas de todo o mundo um nível de liberdade e flexibilidade sem precedentes.

O que é a Gemma 4? Principais características numa vista

A Gemma 4 é uma série de modelos linguísticos de grande escala em código aberto lançada pela Google DeepMind, que partilha tecnologia com a série de modelos Gemini. Os principais destaques incluem:

Capacidades de raciocínio avançadas: suporta planeamento em vários passos e raciocínio lógico profundo, superando claramente outros modelos de código aberto da mesma categoria em testes de referência de matemática e de cumprimento de instruções.

Fluxo de trabalho de agente nativo: inclui chamada de funções, saída JSON estruturada e suporte a instruções do sistema, permitindo impulsionar diretamente agentes autónomos de IA e a execução de tarefas em vários passos.

Implementação no dispositivo: as versões E2B e E4B são otimizadas especificamente para vários dispositivos, como telemóveis, permitindo executar completamente offline.

Suporte multimodal abrangente: todas as versões suportam nativamente entrada de imagem e de vídeo; as versões E2B e E4B suportam adicionalmente entrada de áudio nativa.

Janela de contexto de longa duração: os modelos de ponta suportam 128K tokens; os modelos maiores chegam até 256K tokens, permitindo incluir, numa única pergunta, toda uma base de código ou documentos extensos.

Geração de código de alta qualidade: suporta escrita de código offline, permitindo transformar a estação de trabalho pessoal num assistente de programação de IA com prioridade local.

Treino nativo em 140+ línguas: suporta mais de 140 línguas em todo o mundo, ajudando os programadores a criar aplicações multilingues para servir utilizadores internacionais.

Quatro tipos de modelos, maximizando o suporte para todos os cenários de aplicação

A Gemma 4 disponibiliza quatro versões, otimizadas para diferentes ambientes de hardware e cenários de aplicação:

Effective 2B (E2B): concebido especificamente para dispositivos móveis e IoT, suporta uma janela de contexto de 128K, entrada nativa de áudio e permite execução totalmente offline em dispositivos de ponta como telemóveis Android e Raspberry Pi.

Effective 4B (E4B): igualmente otimizado para a ponta, com capacidades multimodais, alcançando um excelente equilíbrio entre desempenho de inferência e ocupação de memória.

26B Mixto de Especialistas (MoE): durante a inferência, ativa apenas 3,8 mil milhões de parâmetros, permitindo inferência rápida com latência muito baixa, adequado para implementações locais em estações de trabalho que valorizam o throughput.

31B Dense: a versão de topo, classificada em terceiro lugar no ranking de texto Arena AI, fornecendo a saída de mais alta qualidade e podendo ser executada integralmente numa única GPU NVIDIA H100 de 80GB.

As versões quantizadas de 26B MoE e 31B Dense podem executar nativamente em placas gráficas de consumo, fazendo com que a poderosa capacidade de inferência de IA se torne verdadeiramente comum no desktop de programadores individuais.

Avanço significativo na inferência local: adeus à dependência de API

Um dos aspetos mais falados da Gemma 4 é a sua ênfase na capacidade de “inferência no dispositivo (On-device)”. Os modelos E2B e E4B foram concebidos para maximizar a eficiência de computação e a eficiência de memória, permitindo executarem-se em dispositivos de ponta como telemóveis, Raspberry Pi e NVIDIA Jetson Orin Nano com uma latência quase nula.

Isto tem um impacto enorme para os programadores. No passado, ao chamar APIs de IA na nuvem era necessário suportar o custo de cada pedido, além de existirem riscos de latência de rede e de privacidade dos dados. A capacidade de inferência no dispositivo da Gemma 4 permite que os programadores executem o modelo no seu próprio hardware, reduzindo significativamente os custos de chamadas de API, ao mesmo tempo que mantêm plena soberania dos dados e disponibilidade offline.

A Google também colaborou de forma estreita com a equipa do Pixel e parceiros de hardware móvel como a Qualcomm e a MediaTek, para garantir que a E2B/E4B atinge o melhor desempenho em dispositivos Android comuns, e abriu o AICore Developer Preview aos programadores Android, de modo a permitir o desenvolvimento para a integração do Gemini Nano 4.

Reforçar os fluxos de trabalho de agentes de IA, aumentando a eficiência com chamadas de funções nativas

A Gemma 4 também alcançou suporte nativo em fluxos de trabalho de agentes (Agentic Workflows), sendo uma das mais evidentes melhorias de funcionalidades em relação à geração anterior. O modelo suporta:

Chamada de funções nativas (Function Calling): o modelo pode chamar diretamente ferramentas externas e APIs, executando operações reais, como consultar bases de dados, chamar serviços de terceiros, etc.

Saída JSON estruturada: assegura que a saída do modelo cumpre um formato específico, facilitando a integração sem falhas com sistemas de backend.

Instruções de sistema nativas (System Instructions): os programadores podem definir o comportamento do modelo a nível de sistema, tornando a configuração do papel do agente de IA mais estável e consistente.

Estas capacidades permitem que a Gemma 4 se torne um agente de IA autónomo “faz-tudo”, capaz não só de responder a perguntas, mas também de interagir ativamente com ferramentas e executar automaticamente fluxos de trabalho em vários passos.

Upgrade multimodal completo: visão, áudio e textos longos—tudo incluído

Todos os modelos da série Gemma 4 possuem capacidades multimodais nativas, alargando significativamente o tipo de tarefas que conseguem tratar.

Imagens e vídeos

No que diz respeito à compreensão visual, todos os modelos suportam processamento nativo de imagem e de vídeo, com suporte a resolução variável. Desempenham-se de forma excecional em tarefas visuais como OCR (reconhecimento ótico de caracteres) e compreensão de gráficos.

Entrada de áudio

No que diz respeito ao áudio, os modelos de ponta E2B e E4B suportam adicionalmente entrada de áudio nativa, permitindo fazer diretamente reconhecimento e compreensão da fala, sem necessidade de passos adicionais de conversão de áudio para texto.

Contexto de longa duração

No âmbito de documentos, os modelos de ponta suportam uma janela de contexto de 128K tokens; os modelos maiores disponibilizam até 256K tokens, permitindo que os programadores enviem, numa única pergunta, toda a base de código ou documentos longos.

Geração de código offline

Suporta escrita de código offline de alta qualidade, permitindo transformar a estação de trabalho pessoal num assistente de programação de IA com prioridade local.

Suporte a 140+ línguas

Treino nativo em mais de 140 línguas, ajudando os programadores a criar aplicações para servir utilizadores em todo o mundo.

Licença Apache 2.0: um marco na ecossistema de código aberto

A Gemma 4 é lançada com uma licença Apache 2.0, que está entre as licenças mais amigas do comércio na comunidade de código aberto. Programadores e empresas podem usar, modificar e distribuir livremente o modelo. Quer a implementação seja em infraestruturas privadas, em ambientes de cloud híbrida, ou incorporada em produtos comerciais, não há restrições adicionais.

Suporte abrangente do ecossistema

A Gemma 4 recebe simultaneamente suporte completo das principais ferramentas da indústria, incluindo Hugging Face (Transformers, TRL, Transformers.js), Ollama, vLLM, llama.cpp, MLX, LM Studio, NVIDIA NIM e NeMo, Keras, Vertex AI e outras.

Os programadores podem descarregar diretamente os pesos do modelo através do Hugging Face, Kaggle ou Ollama, e experimentar online no Google AI Studio as versões 31B e 26B MoE; ou podem testar as versões E2B e E4B através da Google AI Edge Gallery.

Para empresas que necessitam de implementações em grande escala, o Google Cloud oferece soluções completas na nuvem, incluindo Vertex AI, Cloud Run, GKE, Sovereign Cloud e serviços de inferência acelerada por TPU, eliminando limitações do teto de capacidade de computação local.

Reduzir custos sem sacrificar capacidades: Gemma 4, uma nova escolha para programadores

O lançamento da Gemma 4 é um marco nos modelos de IA de código aberto. Como uma ferramenta empresarial com capacidade de implementação em produção, consegue executar offline em telemóveis, chamar ferramentas externas para concluir tarefas de forma autónoma, lidar com documentos extensos e com entradas multimodais, ao mesmo tempo que permite que todos as usem livremente.

Para programadores e empresas que pretendem reduzir custos de chamadas de API mantendo capacidades de IA, a Gemma 4 oferece um caminho extremamente atrativo.

Este artigo sobre a Google ao lançar o modelo de código aberto Gemma 4: “Reforçar a eficiência dos fluxos de trabalho de agentes com ‘inferência no dispositivo’” aparece pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Comentar

0/400

Nenhum comentário