Cloud & Infrastructure

Etched Sohu e a corrida de inferência ASIC: como avaliar chips especializados em relação a GPUs

Etched Sohu colocou o silício de inferência especializado de volta nas discussões sérias dos operadores, mas a avaliação real não é um título de financiamento ou um único número de rendimento. As equipes devem comparar os sistemas de inferência ASIC com GPUs em termos de latência, estabilidade da carga de trabalho, risco do roteiro do modelo, maturidade do serviço, tempo de aquisição e arquitetura de fallback.

Escrito por Hamza Diaz

1 de julho de 202610 min de leitura26 visualizações

A questão não é se um chip parece rápido em uma demonstração. Para uma equipe de IA de produção, a questão mais difícil é se o hardware de inferência especializado ainda parece bom depois que a latência final, as mudanças de modelo, a qualidade de quantização, a observabilidade, o tempo de aquisição e o roteamento de fallback são precificados.

Etched Sohu é um caso de teste útil. TechCrunch relatou que Etched atingiu uma avaliação de US$ 5 bilhões e reivindicou mais de US$ 1 bilhão em vendas de chips, enquanto Etched descreve seus sistemas como clusters de inferência de fronteira projetados em torno de chips, racks, software e métodos de fabricação para inferência de modelo de fronteira. Isso torna a empresa difícil de ser ignorada pelas equipes de infraestrutura. Por si só, ele não responde à pergunta do operador: uma carga de trabalho real deveria passar da capacidade flexível da GPU para um caminho de inferência ASIC?

Esta não é uma classificação de fornecedores, uma recapitulação de financiamento ou um conselho de investimento. É uma maneira prática de comparar racks ASIC do tipo Sohu com sistemas de inferência baseados em GPU por meio de ajuste de carga de trabalho, qualidade de medição, maturidade de tempo de execução e planejamento de saída.

A maioria das equipes não deve comprar hardware de inferência especializado até que a linha de base da GPU já esteja bem ajustada. Lotes fracos, p99s ausentes, nenhum teste de regressão de qualidade e nenhum exercício de reversão acompanharão a equipe até o novo chip.

Por que o silício de inferência especializado está de volta à mesa

A mudança da escassez de treinamento para a economia de inferência

Muitas equipes de IA estão migrando de experimentos de modelos ocasionais para cargas de trabalho de inferência recorrentes. O fardo não é apenas o acesso ao modelo. Ele atende latência, tempo de fila, confiabilidade, planejamento de capacidade, visibilidade de custos e o trabalho de engenharia necessário para manter a capacidade de resposta dos recursos de IA voltados para o usuário.

Isso muda a discussão sobre hardware. O hardware de treinamento geralmente é avaliado pelo desempenho do lote, escala de memória e comportamento de treinamento distribuído. A inferência de produção pergunta sobre o tempo até o primeiro token, p95, p99, tempo de fila, estabilidade de streaming e reversão.

O silício de inferência especializado torna-se interessante quando a carga de trabalho se repete: mesma família de modelos, formatos de prompt semelhantes, janelas de contexto conhecidas, comprimentos de saída conhecidos e tráfego que pode ser previsto com alguma confiança. Se o roteiro do modelo mudar a cada poucas semanas, a flexibilidade do hardware pode valer mais do que qualquer ganho de eficiência alegado.

O que Etched Sohu representa sem o ruído do financiamento

Etched descreve seu primeiro produto como clusters de inferência de fronteira e diz que sua abordagem co-projeta chips, racks, software e métodos de fabricação. Isso é importante porque as cargas de trabalho baseadas em transformadores e misturas de especialistas estão no centro de muitos sistemas de linguagem, e a inferência é onde os produtos de IA de produção podem exercer pressão computacional contínua.

O mesmo foco restringe a aposta. Os compradores precisam acreditar que as cargas de trabalho futuras continuarão correspondendo às suposições de hardware. Isso pode ser racional para produtos estáveis e de alto volume e arriscado para equipes que ainda testam famílias de modelos, comprimentos de contexto, entradas multimodais ou estruturas de serviço.

Por que as GPUs continuam sendo o ponto de comparação

As GPUs continuam sendo a linha de base padrão porque protegem escolhas futuras. O material da arquitetura Blackwell da NVIDIA enfatiza ampla aceleração de IA, memória, rede, recursos do Transformer Engine e integração de pilha de software. TensorRT-LLM e vLLM também mostram quanta otimização ainda existe na pilha de serviços.

Portanto, a verdadeira decisão não é ASIC ou GPU em abstrato. É importante saber quais cargas de trabalho merecem especialização e quais ainda precisam de espaço para serem movimentadas.## A compensação: eficiência ASIC versus flexibilidade de GPU

Um ASIC de inferência de IA é projetado em torno de um conjunto mais restrito de padrões de computação do que uma GPU de uso geral. Na melhor das hipóteses, esse foco pode melhorar o desempenho, a densidade ou a eficiência energética das cargas de trabalho suportadas. Para inferência, o alvo pode incluir arquitetura de modelo, padrões de kernel, layout de memória, formato de precisão e suposições de serviço.

Esse é o apelo. Um sistema construído para um trabalho mais restrito pode fazer esse trabalho muito bem.

As GPUs protegem as equipes da incerteza. Eles podem executar muitos tipos de modelos, suportar múltiplas estruturas, absorver mudanças de arquitetura mais facilmente e se beneficiar de ferramentas maduras quando o tamanho do modelo, a estratégia de quantização, os padrões de recuperação ou os recursos multimodais ainda estão em movimento.

O custo oculto da adoção do ASIC é o valor da opção. Se uma equipe se compromete com um caminho especializado, ela deve saber o que acontece quando o modelo muda, há picos de tráfego, as janelas de contexto se expandem ou o tempo de execução não possui um recurso do produto.

Dimensão	Pergunta de inferência ASIC	Pergunta de inferência de GPU
Ajuste da carga de trabalho	A carga de trabalho é suficientemente estável para recompensar a especialização?	A pilha de GPU pode suportar muitas cargas de trabalho de forma aceitável?
Ajuste do roteiro	As futuras escolhas de modelos ainda corresponderão às suposições de hardware?	A plataforma pode absorver mudanças de modelo com retrabalho limitado?
Ajuste operacional	O serviço, o monitoramento e o failover podem ser executados de maneira limpa?	As ferramentas existentes podem suportar a carga de trabalho rapidamente?
Ajuste econômico	A economia medida da carga de trabalho justifica os custos de migração e suporte?	A otimização pode reduzir o desperdício sem a dependência de um novo hardware?

O mapa de prontidão de inferência Optijara ASIC

O Mapa de Prontidão de Inferência Optijara ASIC é uma estrutura de cinco eixos para decidir se um sistema semelhante ao Sohu merece uma prova de conceito.

sereia fluxograma TD A[Carga de trabalho de inferência de produção] --> B[Estabilidade da carga de trabalho] A -> C[Latência e forma de taxa de transferência] A -> D[Exposição do roteiro do modelo] A -> E[Maturidade de serviço e observabilidade] A --> F[Arquitetura substituta] B --> G{ASIC POC pronto?} C -> G D --> G E --> G F --> G

G -->	Sim	H[Executar ASIC vs GPU POC otimizado]
G -->	Não	I[Melhorar linhas de base, telemetria e clareza do roteiro]

Eixo 1: Estabilidade da carga de trabalho

A prontidão do ASIC começa com a repetibilidade. Bons sinais incluem famílias de modelos recorrentes, formatos de prompt previsíveis, comprimentos de contexto estáveis, comprimentos de saída conhecidos e tráfego que pode ser previsto com alguma confiança.

Sinais fracos incluem trocas frequentes de modelos, recursos experimentais, comportamento pouco claro do usuário ou forte dependência de recursos de novos modelos que podem não ser mapeados de maneira clara para o hardware atual.

Eixo 2: Latência e forma de taxa de transferência

Não avalie hardware de inferência com um tempo de resposta médio. Meça o tempo para o primeiro token, p50, p95, p99, tokens por segundo, tempo de fila, latência de pré-preenchimento, latência de decodificação, taxa de erro, comportamento de novas tentativas e taxa de transferência com simultaneidade realista.

Os ASICs podem ter um bom desempenho em um formato de lote e pior em outro. As GPUs podem parecer caras até que o lote, o cache, o TensorRT-LLM, o vLLM e o agendamento sejam ajustados. A comparação só significa alguma coisa quando ambos os lados são testados seriamente.

Eixo 3: Exposição do roteiro do modeloUm sistema especializado pode ser uma boa opção para uma carga de trabalho estável do transformador e uma má opção para um roteiro em mudança. As equipes devem perguntar se esperam novos padrões de atenção, janelas de contexto mais longas, entradas multimodais, formatos de precisão diferentes ou mudanças de modelo orientadas pelo fornecedor.

Se o roteiro não estiver claro, as GPUs podem preservar mais valor de opção. Se o roteiro for estável e a carga de trabalho for grande o suficiente, os testes ASIC se tornarão mais confiáveis.

Eixo 4: Maturidade de veiculação e observabilidade

O hardware não executa o produto sozinho. A camada de serviço precisa de roteamento, escalonamento automático, rastreamento, registro, alerta, reversão, controles de implantação e resposta a incidentes. Um chip rápido conectado a um caminho de serviço imaturo pode produzir um sistema mais fraco do que uma pilha de GPU mais lenta e melhor operada.

Isso se conecta a um trabalho mais amplo de observabilidade. Se sua equipe ainda não definiu métricas de tempo de execução de IA, comece com os fundamentos operacionais da observabilidade de inferência de IA antes de assumir um compromisso de hardware.

Eixo 5: Arquitetura substituta

As implantações ASIC mais seguras pressupõem reserva desde o início. Modelos não suportados, picos de tráfego, falhas de tempo de execução, redes degradadas ou reversões urgentes de modelos devem ter um caminho de volta para a GPU ou para a capacidade da nuvem. Se o fallback exigir a reescrita do produto, a arquitetura não estará pronta.

Matriz de decisão: quando os racks ASIC do tipo Sohu merecem uma prova de conceito

Os racks ASIC do tipo Sohu merecem atenção quando a carga de trabalho é de alto volume, de nível de produção, sensível à latência e estável o suficiente para ser medida. A equipe já deve conhecer as versões do modelo, comprimentos de sequência, distribuições de tráfego, comprimentos de saída e SLOs de destino.

Produtos limítrofes com uso real, mas com estratégia de modelo instável, ainda podem executar um POC ASIC, mas apenas como coleta de evidências, não como um atalho de aquisição.

Evite silício de inferência especializado quando a carga de trabalho for de pesquisa intensa, de baixo volume, altamente pontiaguda ou dependente de ampla compatibilidade de estrutura. Tenha cuidado quando a expansão multimodal estiver próxima, o fornecedor do modelo pode mudar ou a telemetria da produção é escassa.

Área de avaliação	O sistema de inferência ASIC pode caber quando	O sistema de inferência de GPU pode caber quando
Latência	As metas de latência final são estáveis e o formato da carga de trabalho é repetível	As metas de latência variam em muitos tipos de modelo
Modelagem de custos	A utilização é suficientemente elevada para testar a economia real	A demanda é incerta ou alta
Flexibilidade do modelo	A arquitetura do modelo é estável	As equipes trocam de modelo com frequência
Maturidade do software	O tempo de execução integra-se ao caminho de serviço atual	As ferramentas de GPU existentes já estão maduras
Quantização	Os formatos suportados preservam a qualidade da tarefa	As equipes precisam testar muitos formatos de precisão
Failover	GPU ou substituto para nuvem já foi projetado	O caminho da GPU é a principal camada de confiabilidade
Habilidades de equipe	Equipe de infraestrutura pode operar capacidade especializada	A equipe precisa de estruturas familiares e iteração mais rápida

Como testar sistemas de inferência ASIC em GPUs sem se enganar

Um benchmark válido começa com entradas semelhantes às de produção: categorias de prompt reais, comprimentos de contexto realistas, comprimentos de saída esperados, comportamento de streaming, padrões de simultaneidade, cargas úteis de recuperação e casos de erro. Os prompts sintéticos podem ajudar na repetibilidade, mas não devem substituir os rastreamentos de carga de trabalho.A Inferência MLCommons é um lembrete útil de que a medição de inferência precisa de cenários definidos e métodos comparáveis. O teste de carga de trabalho interna ainda é mais importante porque o formato do tráfego, a pilha de serviços e a barra de qualidade são específicos.

Divida a latência em fases. Meça o tempo de roteamento, tempo de fila, pré-preenchimento, tempo até o primeiro token, decodificação, cadência de streaming e tempo total de conclusão. A latência média esconde o comportamento da cauda.

Execute testes separados para prompts curtos, prompts longos, saídas curtas, saídas longas, baixa simultaneidade, alta simultaneidade e tráfego intermitente. Não os reúna em uma pontuação. Os sistemas ASIC e GPU podem responder de maneira diferente conforme o tamanho do lote, a duração do contexto e a mudança de simultaneidade.

Teste também linhas de base de GPU otimizadas. Antes do POC, ajuste o lote, o cache, as configurações de tempo de execução, o posicionamento do modelo e a configuração do serviço.

A quantização pode alterar o desempenho e a qualidade da tarefa. Não avalie tokens por segundo sem verificar a confiabilidade da saída, a factualidade, o comportamento de recusa, a precisão da chamada da ferramenta, a qualidade da recuperação e o sucesso da tarefa. Um sistema mais rápido que degrada silenciosamente os resultados críticos para os negócios não é mais barato na prática.

Um POC sério também inclui exercícios de falha.

Broca	O que testar	Provas a recolher
Perda de nó	O tráfego pode sair de forma limpa?	Taxa de erro, tempo de recuperação, crescimento da fila
Aumento de tráfego	A latência diminui de forma previsível?	p95, p99, ponto de saturação
Modelo não suportado	As solicitações podem retornar à GPU?	Sucesso no roteamento, impacto no usuário
Reversão de modelo	A equipe pode reverter rapidamente?	Tempo de implantação, taxa de falhas
Interrupção de observabilidade	Os incidentes ainda podem ser triados?	Logs, rastreamentos, cobertura de alertas
Degradação da rede	O serviço falha com segurança?	Comportamento de repetição, padrões de tempo limite

O roteiro do modelo arrisca o preço inferior da maioria das equipes

O desempenho do ASIC pode depender de suposições sobre variantes de transformadores, mecanismos de atenção, layout de memória, comprimento de sequência, precisão e suporte de kernel. Se os modelos futuros se afastarem dessas suposições, o caminho do hardware poderá se tornar menos útil.

Isso não torna o aprisionamento automaticamente ruim. Isso significa que o aprisionamento deve ter um preço. Se uma carga de trabalho for estável e valiosa, a especialização pode ser racional. Se o produto depender de uma troca rápida de modelo, o aprisionamento pode se tornar caro.

As equipes devem mapear como o tempo de execução ASIC se ajusta ao vLLM, TensorRT-LLM, Kubernetes, empacotamento de modelo, monitoramento, segredos, CI/CD e reversão. Mesmo que algumas ferramentas sejam orientadas para GPU, as expectativas operacionais permanecem as mesmas: implantar com segurança, observar o comportamento e recuperar rapidamente.

As decisões de hardware também acarretam riscos de tempo. Prazos de entrega, reservas de capacidade, contratos de suporte, prontidão do data center, energia, rede e trabalho de integração podem durar mais que o plano do modelo atual. Os compradores também dependem do suporte ao tempo de execução do fornecedor, da maturidade do compilador, da compatibilidade do modelo e do roteiro futuro do chip. Se um novo modelo exigir a espera pelo suporte do fornecedor, inclua esse atraso na decisão.

Lista de verificação de implementação para uma prova de conceito de inferência ASIC

### Antes do POC	Etapa	Proprietário
Congelar cargas de trabalho de teste	Líder de ML	Conjunto de prompts, versões de modelo, intervalos de contexto
Definir SLOs	Produto e infra	p50, p95, p99, tempo para os primeiros alvos de token
Construir linha de base de GPU	Infra	Relatório de benchmark vLLM ou TensorRT-LLM ajustado
Definir caminho de fallback	Arquitetura	Plano de roteamento de GPU ou nuvem
Definir verificações de qualidade	Avaliação de BC	Rubrica de avaliação em nível de tarefa
Revise a segurança	Segurança	Tratamento de dados e revisão de acesso
Preparar modelo económico	Finanças e infra	Suposições de utilização, suporte e migração

Durante o POC

Execute tráfego representativo, compare com linhas de base de GPU otimizadas, registre métricas de veiculação completa, avalie regressão de qualidade, verifique a observabilidade, teste suposições de escalonamento automático e execute exercícios de failover. O POC deve produzir provas comparáveis, não uma pasta de capturas de tela.

Após a decisão do POC

Escreva um memorando de aprovação/não aprovação que cubra o ajuste da carga de trabalho, suposições econômicas, lacunas operacionais, custo de migração, risco do roteiro do modelo, risco de aquisição e arquitetura alternativa. Se o memorando não puder explicar como o caminho ASIC falha com segurança, a decisão não está pronta.

JSON { "asicReadinessProfile": {

"latencyTargets": ["timeToFirstToken", "p95", "p99", "tokensPerSecond"],

"observabilityCoverage": ["logs", "traços", "métricas", "alertas"],

} }

"workloadStability": "alto	médio	baixo",
"modelRoadmapRisk": "alto	médio	baixo",
"fallbackPlan": "gpu_route	cloud_route	nenhum",
"procurementRisk": "alto	médio	baixo",
"decisão": "poc	adiar	evitar"

Erros comuns ao comparar chips de inferência ASIC com GPUs

O primeiro erro é comparar com uma linha de base de GPU não otimizada. Ajuste primeiro o caminho da GPU, incluindo software de serviço, lote, cache e configurações de tempo de execução.

A segunda é confiar no rendimento do título sem distribuição de latência. Meça p95, p99, comportamento de burst e tempo de fila, não apenas o tempo de execução do modelo.

A terceira é ignorar as regressões de qualidade da quantização. Uma precisão mais baixa pode melhorar o desempenho, mas pode prejudicar a confiabilidade da saída. Combine testes de desempenho com verificações de qualidade em nível de tarefa.

Outra falha comum é esquecer a camada de serviço. O hardware não pode compensar roteamento deficiente, falta de rastreamento, reversão fraca ou propriedade pouco clara do incidente.

Finalmente, não trate a aquisição como uma decisão puramente financeira. A compra de hardware molda a escolha do modelo, o fluxo de trabalho de implantação, o planejamento de confiabilidade e a flexibilidade futura.

Advertências, limitações e um plano de medição prático

As reivindicações do fornecedor público podem não corresponder à sua carga de trabalho. A disponibilidade e os preços variam. Mudanças no comportamento do modelo. O suporte de software é importante. A desatualização do cache pode distorcer os resultados do benchmark. O custo de implementação pode eliminar economias teóricas. Um sistema que parece eficiente isoladamente pode parecer menos atraente depois de incluídos a migração, o suporte, o recurso e o risco operacional.

Semana	Foco	Saída
1	Inventário de carga de trabalho e linha de base de GPU	Perfil de tráfego, benchmark de GPU ajustado
2	Design de referência	Conjuntos de prompts, SLOs, rubrica de qualidade
3	Testes ASIC e GPU POC	Latência, rendimento, qualidade, dados de falha
4	Análise económica e de risco	Memorando de aprovação/reprovação com design substituto	Se uma equipe estiver comparando racks de inferência ASIC com capacidade de GPU, o Optijara pode ajudar a transformar a decisão em um estudo de carga de trabalho medido, em vez de uma avaliação do fornecedor. O trabalho não é declarar vencedora uma categoria de hardware. É definir a carga de trabalho, testar o caminho de serviço, quantificar o risco do roteiro e projetar uma arquitetura alternativa antes que a aquisição se torne difícil de resolver.

Vale a pena avaliar o silício de inferência especializado quando o ajuste da carga de trabalho é claro e a evidência operacional é forte. As GPUs continuam valiosas onde a portabilidade, a variedade de modelos e a flexibilidade do roteiro são mais importantes.

Pontos principais

1ASICs de inferência especializados devem ser avaliados em relação a linhas de base de GPU otimizadas, e não a implantações de referência não ajustadas.
2Etched Sohu é melhor tratado como um prompt para construir uma avaliação específica da carga de trabalho, não como uma história de financiamento ou entusiasmo do fornecedor.
3Os candidatos mais fortes ao ASIC são cargas de trabalho de inferência estáveis, de alto volume e sensíveis à latência, com modelos e padrões de tráfego claros.
4O risco do roteiro do modelo é central porque o desempenho do ASIC pode depender da arquitetura, da precisão, do kernel e das suposições de serviço.
5Um POC sério deve medir o tempo até o primeiro token, p95, p99, taxa de transferência, tempo de fila, qualidade de quantização, comportamento de erro e failover.
6A arquitetura de fallback não é opcional quando o hardware especializado oferece suporte apenas a parte de um roteiro de produto.
7As equipes devem incluir o custo de implementação, a maturidade do software, o prazo de aquisição e as lacunas de observabilidade na decisão final.

Conclusão

Etched Sohu e sistemas de inferência ASIC semelhantes merecem atenção porque a IA de produção é cada vez mais um problema de economia, não apenas um problema de seleção de modelos. Avalie-os por meio de evidências de carga de trabalho: distribuição de latência, estabilidade do modelo, qualidade de quantização, maturidade do serviço, exposição do roteiro e design substituto. Os ASICs podem fazer sentido quando a carga de trabalho é estável o suficiente para recompensar a especialização. As GPUs ainda se adaptam melhor quando a flexibilidade e a escolha do modelo agregam mais valor comercial.

Perguntas frequentes

O que é um ASIC de inferência de IA?

Um ASIC de inferência de IA é um chip projetado para cargas de trabalho de inferência específicas, em vez de aceleração ampla de uso geral. Pode melhorar a eficiência das cargas de trabalho suportadas, mas pode reduzir a flexibilidade em comparação com GPUs.

Como as equipes devem comparar o Etched Sohu com as GPUs NVIDIA?

As equipes devem comparar cargas de trabalho representativas em termos de distribuição de latência, taxa de transferência, formato do lote, comprimento do contexto, qualidade de quantização, integração de software, observabilidade, suposições de custos e opções de fallback.

Quando um sistema de inferência ASIC é uma boa opção?

Geralmente é mais adequado quando a carga de trabalho é de alto volume, estável, sensível à latência, mensurável e com pouca probabilidade de exigir alterações frequentes na arquitetura do modelo.

Quando as equipes devem evitar o silício de inferência especializado?

As equipes devem ser cautelosas quando o roteiro do modelo muda frequentemente, as cargas de trabalho são baixas ou imprevisíveis, os requisitos multimodais estão surgindo ou a pilha de serviços precisa de ampla portabilidade.

Por que o aprisionamento da arquitetura do modelo é importante?

O desempenho do ASIC pode depender de suposições sobre estrutura do modelo, precisão, layout de memória e kernels. Se os modelos futuros não corresponderem a essas premissas, o desempenho ou a compatibilidade poderão ser prejudicados.

Fontes

Compartilhar este artigo

Escrito por

Hamza Diaz

Hamza Diaz é o fundador da Optijara, onde cria agentes de IA práticos, sistemas de automação e fluxos de trabalho do Copilot para empresas de serviços. Ele escreve sobre operações de IA, estratégia de agentes e implementação no mundo real para equipes que querem sistemas úteis em vez de exagero.