Open Source

DiffusionGemma e geração de texto de difusão local: a mudança de latência do streaming de token para o refinamento paralelo

DiffusionGemma não é apenas mais um lançamento do Gemma. Ele mostra um padrão de inferência local diferente: gerar blocos de texto em paralelo, refiná-los iterativamente e mover a pressão de latência do streaming sequencial de tokens para a computação amigável à GPU.

Escrito por Hamza Diaz

22 de junho de 202610 min de leitura61 visualizações

Vale a pena prestar atenção ao DiffusionGemma por um motivo simples: ele altera o problema de latência. A maioria dos modelos de linguagem ainda escreve em ordem. Eles preveem um token, acrescentam-no e depois preveem o próximo. DiffusionGemma testa um padrão diferente. Ele funciona em um bloco de texto, refina muitas posições juntas e continua melhorando o rascunho por meio de etapas de eliminação de ruído até que a resposta seja utilizável.

Esse não é um pequeno detalhe de implementação. Isso muda o que um desenvolvedor deve medir. A novidade não é simplesmente que o Google lançou outro modelo aberto. O ponto mais interessante é que a geração de texto local está sendo afastada do estrito streaming de token da esquerda para a direita e em direção ao refinamento em nível de bloco.

O Google descreve o DiffusionGemma como um modelo experimental aberto construído na família Gemma 4 e lançado sob uma licença Apache 2.0. A página do modelo Hugging Face lista o modelo google/diffusiongemma-26B-A4B-it com licenciamento Apache 2.0, suporte para Transformers e instruções de aplicativo local vLLM. A NVIDIA enquadra claramente o ângulo do hardware: a decodificação autorregressiva de usuário único é frequentemente limitada pelo movimento da memória, enquanto a geração no estilo de difusão pode transferir mais trabalho para a computação paralela da GPU.

Isso é mais importante em máquinas locais. Às vezes, um serviço em nuvem pode ocultar a ineficiência ao agrupar muitos usuários. Um desenvolvedor em uma estação de trabalho não pode. Se um modelo emitir texto, um token por vez, a pessoa que está no teclado sentirá essa cadeia de dependência. A geração no estilo difusão tenta tornar a espera menos serial.

O que muda quando a geração de texto se torna paralela?

A decodificação autorregressiva é como uma máquina de escrever com um preditor de próxima tecla muito inteligente. O token 120 não pode aparecer até que o token 119 exista. Isso torna o streaming natural e as ferramentas maduras, mas também cria um longo caminho serial até a resposta.

A geração de texto por difusão se comporta mais como um rascunho. O modelo começa com um bloco de texto com ruído ou mascarado e, em seguida, melhora muitas posições nesse bloco de uma só vez. Nos materiais públicos do DiffusionGemma, o modelo pode eliminar o ruído de até 256 tokens por etapa. A parte importante não é o número por si só. É o fato de que o modelo pode raciocinar sobre múltiplas posições no mesmo bloco enquanto refina a saída.

sereia gráfico TD A[Prompt do usuário] --> B{Método de geração} B -> C[Decodificação autoregressiva] B --> D[Geração de texto em estilo de difusão] C -> C1[Prever próximo token] C1 --> C2[Anexar token] C2 --> C3[Repetir sequencialmente] C3 --> C4[Resposta transmitida] D --> D1[Inicializar bloco de texto] D1 --> D2[Denoise muitas posições em paralelo] D2 --> D3[Refinar bloco inteiro] D3 --> D4[Retornar bloco concluído ou parcialmente refinado]

Isso não faz com que a computação desapareça. Isso muda a estrutura de dependência. Os modelos autorregressivos analisam a resposta em ordem. Os modelos de estilo difusão podem dar um passo mais pesado em um bloco mais largo. No hardware certo, isso pode fazer com que a geração local sinta menos vontade de esperar que uma frase seja digitada e mais vontade de assistir um rascunho tomar forma.

## Modelos de linguagem autorregressiva vs difusão	Dimensão	Decodificação autorregressiva
Padrão de geração	Da esquerda para a direita, um token de cada vez	Refinamento em muitas posições de token em um bloco
Forma de latência	Dependência serial longa através da resposta	Mais trabalho paralelo dentro de cada etapa de refinamento
Comportamento de streaming	Streaming de tokens naturais	Saída mais orientada a blocos
Pressão de hardware	Frequentemente sensível à largura de banda da memória para um usuário local	Mais orientado para a computação ao eliminar ruído de blocos em paralelo
Bom ajuste	Bate-papo maduro, resultados gerais de alta qualidade, pilhas de serviços familiares	Experimentos locais, edição inline, preenchimento, tarefas de texto não lineares
Cuidados	GPU local pode ficar subutilizada durante a decodificação de usuário único	Qualidade experimental e caminhos de tempo de execução mais recentes

É por isso que o DiffusionGemma deve ser tratado como um teste de arquitetura, e não como um substituto imediato para os modelos padrão do Gemma. O Google afirma que os modelos Gemma 4 padrão continuam sendo a recomendação quando a qualidade máxima é a prioridade. DiffusionGemma é para pesquisadores e desenvolvedores que testam padrões de interação local mais rápidos.

Essa distinção é importante. Uma nova abordagem de decodificação é interessante. Não é motivo para reconstruir todos os assistentes, aplicativos de recuperação ou ferramentas de codificação na próxima semana.

Por que a latência local de usuário único é importante

A inferência local tem um formato diferente da inferência na nuvem. Um servidor pode receber solicitações suficientes para manter os aceleradores ocupados durante o processamento em lote. Um laptop, GPU de desktop ou pequena caixa de laboratório geralmente atende uma pessoa por vez.

Isso torna a decodificação sequencial visível. O bate-papo pode tolerar isso porque os usuários estão acostumados com streaming de texto. Outros fluxos de trabalho são menos tolerantes. Edição inline, reparo de código, ferramentas de escrita local e pequenos loops de automação repetidos expõem a latência de maneira diferente. Se cada etapa aguardar uma cadeia de tokens, o produto começa a ficar pegajoso.

A NVIDIA apresenta o DiffusionGemma como uma combinação melhor para essa configuração local de usuário único porque a remoção de ruído de bloco pode colocar mais matemática de GPU paralela para funcionar. O Google aponta usos locais sensíveis à velocidade, como edição inline, iteração rápida e estruturas de texto não lineares. Esses exemplos são concretos o suficiente para serem testados. Uma ferramenta de escrita que reescreve um parágrafo, um assistente de código que preenche um corpo de função ausente ou um aplicativo de recuperação local que redige uma resposta curta revelarão se o refinamento do bloco ajuda.

Minha opinião: o caso de uso mais promissor não é o chat comum. O chat já possui um bom truque de mascaramento chamado streaming. DiffusionGemma se torna mais interessante quando a interface deseja um bloco finalizado, um bloco reparado ou um bloco reescrito.

Onde DiffusionGemma se encaixa ao lado dos modelos Gemma padrão

DiffusionGemma pertence ao lado dos modelos Gemma padrão, não acima deles. Os materiais públicos o descrevem como construído na família Gemma 4 e conectado à pesquisa Gemini Diffusion, com um cabeçote de difusão voltado para a velocidade de geração. O cartão modelo é importante porque oferece aos desenvolvedores um artefato real para inspecionar, executar e comparar, não apenas um anúncio.

Uma divisão prática é assim:	Requisito	Melhor primeira escolha
Melhor qualidade de saída geral	Gema Padrão	O Google posiciona o padrão Gemma 4 como o padrão de qualidade mais forte
Streaming de token familiar	Gema padrão	O produto pode mostrar token de progresso por token
Edição de bloco local	Teste de difusãoGemma	A arquitetura pode refinar muitas posições juntas
Preenchimento de código	Teste DiffusionGemma com verificações rigorosas	O contexto futuro pode ajudar, mas a exactidão tem de ser medida
JSON estrito ou chamadas de ferramenta	Linha de base de ambos os modelos	Uma resposta mais rápida não será útil se a taxa de reparo aumentar
Pesquisa experimental	DifusãoGemma	A questão é estudar um padrão de geração diferente

A página Hugging Face lista o suporte por meio de Transformers, e o material do desenvolvedor ao redor aponta para caminhos de aplicativos locais, incluindo ferramentas vLLM e NVIDIA. Isso dá aos desenvolvedores o suficiente para executar um teste controlado. Isso não elimina a necessidade de linhas de base.

Um plano de teste para desenvolvedores que começa no lugar certo

Não comece com uma pergunta vaga como: “É bom?” Isso geralmente produz um debate confuso sobre vibrações. Comece com o formato da latência e depois decida se a qualidade é aceitável.

Área de teste	O que executar	O que gravar	Por que é importante
Primeira saída utilizável	Prompt curto, resposta média, execuções repetidas	Tempo até aparecer um bloco ou resposta coerente	A saída de difusão pode não parecer streaming de token
Latência ponta a ponta	As mesmas instruções no DiffusionGemma e no Gemma padrão	Tempo do relógio desde o envio até a resposta utilizável	Mostra se o refinamento do bloco ajuda na tarefa real
Piso de qualidade	Resumos, edições, comentários de código, questões factuais	Classificação humana mais notas de falha	A velocidade só importa acima do limite da tarefa
Ajuste de recursos locais	Tempo de execução e quantização pretendidos	VRAM, memória, calor, estabilidade	Um modelo que mal cabe não parecerá rápido
Edição e preenchimento	Reescrita de parágrafo, código ausente, reparo estruturado	Correção e edição de localidade	Estes são pontos fortes plausíveis para o contexto do bloco
Recuperação de falhas	Prompts ambíguos, prompts longos, formatos restritos	Quebras de formato, novas tentativas, restrições ignoradas	Modelos experimentais precisam de um mapa de falhas

Um primeiro conjunto de benchmark útil deve incluir uma resposta curta de bate-papo, uma reescrita de 500 palavras, um preenchimento de código, uma resposta no formato JSON e uma resposta baseada na recuperação. Essa combinação é suficiente para captar as compensações óbvias sem pretender ser uma avaliação laboratorial completa.

O objetivo não é coroar um vencedor. O objetivo é descobrir qual forma de interação se beneficia da decodificação por difusão.

Uma matriz de ajuste de latência local

Use DiffusionGemma quando a experiência do usuário for limitada pelo atraso de geração local e a tarefa puder tolerar comportamento experimental. Não o use porque o lançamento é novo.

Carga de trabalho	DifusãoGemma fit	Razão
Edições de escrita embutida	Alto	O modelo pode refinar o texto em torno da edição, não apenas dos tokens anteriores
Preenchimento de código	Médio a alto	O contexto futuro pode ser importante, mas os testes devem ser rigorosos
Geração de respostas factuais longas	Médio	A velocidade pode ajudar, mas a disciplina na origem ainda decide a utilidade
Streaming de chatbot token por token	Médio a baixo	Os usuários podem preferir o progresso contínuo à conclusão do bloco
JSON estrito ou chamadas de ferramenta	Teste com cuidado	A confiabilidade do formato é mais importante do que a velocidade bruta
Prosa final da mais alta qualidade	Use o Gemma padrão primeiro	Google mantém padrão Gemma 4 como recomendação de qualidade	Uma regra de decisão compacta:

JSON { "test_diffusiongemma_when": [ "a carga de trabalho é executada localmente para um usuário", "a latência de geração é o gargalo visível", "a tarefa se beneficia da edição de blocos ou geração não linear", "as compensações de qualidade são aceitáveis após a medição" ], "prefer_standard_gemma_when": [ "é necessária a máxima qualidade de saída", "streaming é fundamental para a interface", "o caminho do tempo de execução deve estar maduro", "a confiabilidade do formato quase não tem tolerância para novas tentativas" ] }

O que testar em aplicações reais

DiffusionGemma não altera a recuperação ou pesquisa por si só. Ele muda a aparência do estágio de geração quando um desenvolvedor cria ferramentas locais de recuperação, resumo, edição ou assistência de código.

Pegue um aplicativo de recuperação local. O tempo total de resposta pode incluir recuperação de documentos, reclassificação, montagem imediata e geração de respostas. DiffusionGemma afeta apenas a última parte. Se a recuperação for lenta, um gerador mais rápido não resgatará a experiência completa. Se a geração dominar, vale a pena testar o refinamento do bloco.

Para ferramentas de desenvolvedor, as verificações mais relevantes são o comportamento do vLLM sob comprimentos de prompt alvo, configuração de Hugging Face Transformers para experimentos, execuções quantizadas na classe de GPU pretendida, edição inline onde a saída chega como um bloco refinado e loops locais repetidos onde pequenos atrasos se acumulam ao longo de muitas etapas.

Para aplicativos de estilo resposta, os mesmos padrões ainda se aplicam: fundamentação da fonte, URLs canônicos, verificações factuais e citações claras. A geração local mais rápida não torna as reivindicações fracas mais seguras.

Advertências que vale a pena levar a sério

DiffusionGemma é experimental. Essa palavra deve fazer um verdadeiro trabalho na avaliação. As declarações de velocidade pública dependem do hardware, da configuração, do tempo de execução e do formato da tarefa. Os resultados podem parecer diferentes em GPUs de consumo, sob quantização ou em cargas de trabalho que exigem formatação exata.

Não presuma que um rendimento de token mais rápido significa um produto melhor. Não presuma que a saída do bloco é sempre preferível ao streaming. Não presuma que um modelo de linguagem de difusão corresponderá aos melhores resultados padrão do Gemma. Os pesos abertos também não facilitam a inferência local por padrão. O tempo de execução ainda precisa se adequar à máquina e ao fluxo de trabalho.

A armadilha comum do benchmarking são os tokens por segundo. Para geração de texto de difusão, a latência de conclusão da tarefa com qualidade aceitável é a melhor métrica. Se o modelo for mais rápido, mas precisar de duas tentativas, o usuário não obteve uma experiência mais rápida.

Plano de medição para um teste local sério

Uma avaliação limpa precisa de cinco números e um julgamento.

Medição	O que responde
Latência ponta a ponta	Quanto tempo desde o envio imediato até a resposta utilizável?
Aceitação de qualidade	A saída atende à barra de tarefas?
Taxa de novas tentativas	Com que frequência o resultado precisa de regeneração ou reparo?
Ajuste de recursos	O modelo funciona dentro dos limites locais de VRAM, memória, calor e estabilidade?
Ajuste UX	A conclusão do bloco é melhor do que o streaming para este fluxo de trabalho?

Para aplicativos de recuperação ou assistidos por pesquisa, adicione fidelidade de citação e sensibilidade ao contexto. A resposta deve refletir as fontes recuperadas e preservar detalhes importantes do documento. A velocidade não compensa um modelo que descarta as evidências.

Esse enquadramento transforma o DiffusionGemma de uma manchete em uma decisão de engenharia. O modelo só é útil se melhorar o loop que alguém realmente executa.

Erros comuns ao testar DiffusionGemmaO primeiro erro é testar apenas prompts de chat. O bate-papo é familiar, mas pode ocultar o valor da geração em nível de bloco. Adicione tarefas de edição, preenchimento e reescrita estruturada.

O segundo erro é emprestar métricas de nuvem para uma máquina local. Uma configuração local de usuário único tem diferentes suposições de lote. Meça o dispositivo alvo.

O terceiro erro é ignorar o formato da saída. Se a interface espera streaming de token ao vivo, um modelo de refinamento de bloco pode exigir alterações no produto.

O quarto erro é tratar a disponibilidade do Apache 2.0 como prontidão. Os pesos abertos ajudam os desenvolvedores a inspecionar e adaptar um modelo, mas o tempo de execução ainda precisa se comportar de acordo com a carga de trabalho pretendida.

O quinto erro é pular as linhas de base padrão do Gemma. DiffusionGemma só significa algo quando comparado com um modelo autorregressivo forte nos mesmos prompts, hardware e critérios de aceitação.

Resultado final

DiffusionGemma torna testável uma questão prática: e se a geração de texto local não precisasse parecer uma digitação token por token?

A decodificação autorregressiva continua sendo o padrão por boas razões. É maduro, de alta qualidade e amplamente suportado. A geração de texto no estilo difusão é diferente. Ele trata o texto mais como um bloco a ser refinado do que uma frase a ser digitada. Isso pode fazer com que a inferência local de usuário único pareça mais rápida quando a carga de trabalho corresponde à arquitetura.

A resposta certa é um teste focado, não um exagero. Execute DiffusionGemma ao lado dos modelos Gemma padrão. Meça latência, qualidade, novas tentativas, adequação de recursos e UX. Use-o onde o refinamento paralelo em nível de bloco melhora a interação. Evite-o onde o streaming, a qualidade máxima ou o comportamento de produção maduro são mais importantes.

Essa é a verdadeira mudança: não apenas um novo modelo, mas um novo modelo de latência para IA local.

Pontos principais

1DiffusionGemma muda a discussão sobre latência local testando o refinamento de texto em nível de bloco em vez da geração estrita de token por token.
2A decodificação autorregressiva continua sendo o padrão maduro, especialmente onde o streaming e a qualidade máxima de saída são importantes.
3O Google descreve o DiffusionGemma como experimental e recomenda modelos Gemma 4 padrão quando a máxima qualidade de produção é a prioridade.
4Os materiais da NVIDIA explicam por que a eliminação de ruído no estilo difusão pode usar melhor a computação paralela da GPU em cargas de trabalho locais de usuário único.
5Os desenvolvedores devem avaliar o DiffusionGemma em relação aos modelos Gemma padrão nos mesmos prompts, hardware, tempo de execução e critérios de aceitação.
6Os melhores primeiros testes são edição local, preenchimento, reescrita estruturada e loops curtos e repetidos onde a conclusão do bloco pode ser mais importante do que o streaming de token ao vivo.

Conclusão

DiffusionGemma é melhor compreendido como um teste de arquitetura de inferência local, não como um substituto universal para modelos autoregressivos de Gemma. Seu valor prático depende se o refinamento paralelo em nível de bloco melhora a latência da tarefa ponta a ponta com qualidade aceitável na máquina de destino. Os desenvolvedores devem baseá-lo em modelos Gemma padrão, medir novas tentativas e ajuste de recursos e usá-lo apenas quando a experiência do usuário se beneficiar de blocos concluídos ou reparados, em vez de streaming contínuo de tokens.

Perguntas frequentes

O que é geração de texto de difusão local?

A geração de texto por difusão local é uma abordagem de geração de texto executada em hardware local e refina blocos de texto em paralelo, em vez de produzir um token por vez.

O DiffusionGemma é mais rápido que os modelos autorregressivos?

Google e NVIDIA relatam vantagens de velocidade em configurações específicas de GPU, mas os desenvolvedores devem medir a latência ponta a ponta em seu próprio hardware e cargas de trabalho.

Quando devo testar o DiffusionGemma?

Teste-o quando a latência local, a edição in-line, o preenchimento de código, a iteração rápida ou a geração em nível de bloco forem mais importantes do que o comportamento de streaming maduro.

Quando devo evitar o DiffusionGemma?

Evite-o quando a qualidade máxima de saída, a confiabilidade estrita da formatação, o comportamento de produção maduro ou o streaming token por token for o principal requisito.

O DiffusionGemma substitui os modelos Gemma padrão?

DiffusionGemma é melhor tratado como um caminho de arquitetura experimental, enquanto os modelos padrão do Gemma permanecem padrões mais fortes para resultados gerais de alta qualidade.

Fontes

Compartilhar este artigo

Escrito por

Hamza Diaz

Hamza Diaz é o fundador da Optijara, onde cria agentes de IA práticos, sistemas de automação e fluxos de trabalho do Copilot para empresas de serviços. Ele escreve sobre operações de IA, estratégia de agentes e implementação no mundo real para equipes que querem sistemas úteis em vez de exagero.