Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora
Faz pouco mais de um mês desde que a startup de IA chinesa Deepseek, uma ramificação da High-Flyer Capital Management, com sede em Hong Kong, lançou a versão mais recente do seu modelo de código aberto Deepseek, R1-0528.
Como seu antecessor, a DeepSeek-R1-que abalou a IA e as comunidades de negócios globais com o quão barato foi treinado e quão bem foi executado em tarefas de raciocínio, todas disponíveis para desenvolvedores e empresas gratuitamente-R1-0528 já está sendo adaptado e remodelado por outras lacunas e desenvolvedores de IA, em grande parte em grande parte de sua permissiva.
Nesta semana, a empresa alemã de 24 anos TNG Technology Consulting GmbH lançou um Essa adaptação: CHIMERA DEEPSEEK-TNG R1T2o mais recente modelo em sua família Chimera Language Model (LLM). R1T2 oferece um impulso notável em eficiência e velocidade, pontuando em mais de 90% das pontuações de referência de inteligência do R1-0528ao gerar respostas com Menos de 40% da contagem de token de saída do R1-0528.
Isso significa que produz respostas mais curtas, traduzindo diretamente para inferência mais rápida e custos de computação mais baixos. No cartão de modelo TNG lançado para seu novo R1T2 na Comunidade de Compartilhamento de Código de Código de Código de Compartilhamento de Comunicação, a empresa afirma que é “cerca de 20% mais rápido que o R1 regular” (o lançado em janeiro) “e mais que duas vezes mais rápido que R1-0528” (a atualização oficial de maio da Deepseek).
A resposta já foi incrivelmente positiva da comunidade de desenvolvedores de IA. “Droga! Deepseek R1T2-200% mais rápido que R1-0528 e 20% mais rápido que R1”, escreveu Vaibhav (VB) Srivastav, líder sênior da Hugging Face, em x. “Significativamente melhor que o R1 no GPQA e o Aime 24, feito via montagem de especialistas com DS V3, R1 e R1-0528-e é licenciado por MIT, disponível no rosto abraçado.”
Esse ganho é possível pelo método de montagem de especialistas (AOE) da TNG-uma técnica para a construção de LLMs, mesclando seletivamente os tensores de peso (parâmetros internos) de vários modelos pré-treinados que o TNG descrito em um artigo publicado em maio No Arxiv, o periódico on-line de acesso aberto não revisado.
Sucessor da Chimera R1T original, o R1T2 apresenta uma nova configuração “Tri-Mind” que integra três modelos pais: Deepseek-R1-0528, Deepseek-R1 e Deepseek-V3-0324. O resultado é um modelo projetado para manter a alta capacidade de raciocínio, reduzindo significativamente o custo de inferência.
O R1T2 é construído sem mais ajuste ou reciclagem fino. Ele herda a força de raciocínio de R1-0528, os padrões de pensamento estruturados de R1 e o comportamento conciso e orientado a instruções da V3-0324-fornecendo um modelo mais eficiente, mas capaz para uso empresarial e de pesquisa.
Como a montagem de especialistas (AoE) difere da mistura de especialistas (MOE)
A mistura de especialistas (MOE) é um projeto arquitetônico no qual diferentes componentes, ou “especialistas”, são ativados condicionalmente por entrada. Em Moe LLMs, como Deepseek-V3 ou Mixtral, apenas um subconjunto das camadas de especialistas do modelo (por exemplo, 8 em 256) estão ativos durante qualquer passe de avanço do Token. Isso permite que modelos muito grandes obtenham contagens de parâmetros e especialização mais altas, mantendo os custos de inferência gerenciáveis - porque apenas uma fração da rede é avaliada por token.
A montagem de especialistas (AoE) é uma técnica de fusão de modelo, não uma arquitetura. É usado para criar um novo modelo a partir de vários modelos MOE pré-treinados, interpolando seletivamente seus tensores de peso.
Os “especialistas” no AOE se referem aos componentes do modelo que estão sendo mesclados – normalmente os tensores especializados em camadas MOE – não especialistas ativados dinamicamente em tempo de execução.
A implementação do AOE pelo TNG se concentra principalmente na fusão de tensores especializados-a parte de um modelo mais responsável pelo raciocínio especializado-enquanto mantém frequentemente as camadas compartilhadas e de atenção mais eficientes de modelos mais rápidos como a V3-0324. Essa abordagem permite os modelos de quimera resultantes para herdar a força do raciocínio sem replicar a verbosidade ou latência dos modelos pais mais fortes.
Desempenho e velocidade: o que os benchmarks realmente mostram
De acordo com as comparações de benchmark apresentadas pelo TNG, o R1T2 alcança entre 90% e 92% do desempenho de raciocínio de seu pai mais inteligente, Deepseek-R1-0528, conforme medido pelos conjuntos de testes Aime-24, Aime-25 e GPQA-Diamond.
No entanto, diferentemente do Deepseek-R1-0528-que tende a produzir respostas longas e detalhadas devido ao seu raciocínio prolongado da cadeia de pensamento-o R1T2 é projetado para ser muito mais conciso. Ele oferece respostas igualmente inteligentes ao usar significativamente menos palavras.
Em vez de se concentrar no tempo de processamento bruto ou nos tokens por segundo, o TNG mede a “velocidade” em termos de Contagem de token de saída por resposta – Um proxy prático para custo e latência. De acordo com os benchmarks compartilhados pelo TNG, o R1T2 gera respostas usando Aproximadamente 40% dos tokens exigido por R1-0528.
Que se traduz em um Redução de 60% no comprimento da produçãoque reduz diretamente o tempo de inferência e calcula a carga, acelerando as respostas por 2x, ou 200%.
Quando comparado ao Deepseek-R1 original, R1T2 também está perto 20% mais conciso em médiaoferecendo ganhos significativos em eficiência para implantações de alto rendimento ou sensíveis a custos.
Essa eficiência não tem o custo da inteligência. Como mostrado no gráfico de referência apresentado no documento técnico da TNG, o R1T2 fica em uma zona desejável na curva de custo de inteligência versus saída. Preserva a qualidade do raciocínio, minimizando a verbosidade – um resultado crítico para os aplicativos corporativos onde a velocidade, a taxa de transferência e custa em toda a matéria.
Considerações de implantação e disponibilidade
O R1T2 é liberado sob uma licença permissiva do MIT e está disponível agora em abraçar o rosto, o que significa que é de código aberto e está disponível para ser usado e incorporado em aplicações comerciais.
O TNG observa que, embora o modelo seja adequado para tarefas gerais de raciocínio, atualmente não é recomendado para casos de uso que requerem chamadas de função ou uso de ferramentas, devido a limitações herdadas de sua linhagem Deepseek-R1. Estes podem ser abordados em atualizações futuras.
A empresa também aconselha os usuários europeus a avaliar a conformidade com a Lei da AI da UE, que entra em vigor em 2 de agosto de 2025.
As empresas que operam na UE devem revisar as disposições relevantes ou considerar interromper o uso do modelo após essa data se os requisitos não puderem ser atendidos.
No entanto, as empresas americanas que operam no mercado interno e atendendo a usuários baseados nos EUA, ou de outras nações, são não Sujeito aos termos da Lei da UE, que deve lhes dar uma flexibilidade considerável ao usar e implantar esse modelo de raciocínio de código aberto gratuito e rápido. Se eles atendem aos usuários da UE, alguns As disposições da Lei da UE ainda se aplicarão.
O TNG já disponibilizou variantes de quimera anteriores em plataformas como OpenRouter e Chutes, onde eles processavam diariamente bilhões de tokens. O lançamento do R1T2 representa uma evolução adicional nesse esforço de disponibilidade pública.
Sobre a TNG Technology Consulting GmbH
Fundado em janeiro de 2001, TNG Technology Consulting GmbH está sediado na Baviera, na Alemanha, e emprega mais de 900 pessoas, com uma alta concentração de doutorado e especialistas técnicos.
A empresa se concentra no desenvolvimento de software, inteligência artificial e serviços DevOps/Cloud, atendendo aos principais clientes corporativos em setores como telecomunicações, seguros, automotivo, comércio eletrônico e logística.
A TNG opera como uma parceria de consultoria baseada em valores. Sua estrutura única, fundamentada nos princípios operacionais de pesquisa e autogestão, apóia uma cultura de inovação técnica.
Ele contribui ativamente para comunidades e pesquisas de código aberto, como demonstrado por meio de lançamentos públicos como R1T2 e a publicação de sua metodologia Assembléia de Exércitos.
O que isso significa para os tomadores de decisão técnicos corporativos
Para os CTOs, os proprietários da plataforma de IA, os leads de engenharia e as equipes de compras de TI, o R1T2 apresenta benefícios tangíveis e opções estratégicas:
- Custos de inferência mais baixos: Com menos tokens de saída por tarefa, o R1T2 reduz o consumo de tempo e energia da GPU, traduzindo-se diretamente em economia de infraestrutura-especialmente importante em ambientes de alto rendimento ou em tempo real.
- Alta qualidade de raciocínio sem sobrecarga: Preserva grande parte do poder de raciocínio de modelos de primeira linha como R1-0528, mas sem a longa vantagem. Isso é ideal para tarefas estruturadas (matemática, programação, lógica), onde as respostas concisas são preferíveis.
- Aberto e modificável: A licença do MIT permite controle e personalização total de implantação, permitindo hospedagem privada, alinhamento de modelo ou treinamento adicional em ambientes regulamentados ou com abas aéreas.
- Modularidade emergente: A abordagem AOE sugere um futuro em que os modelos são construídos modularmente, permitindo que as empresas montem variantes especializadas, recombinando forças dos modelos existentes, em vez de recorrer do zero.
- Advertências: As empresas que dependem de chamadas de função, uso da ferramenta ou orquestração de agentes avançadas devem observar as limitações atuais, embora as atualizações futuras da Chimera possam abordar essas lacunas.
A TNG incentiva pesquisadores, desenvolvedores e usuários corporativos a explorar o modelo, testar seu comportamento e fornecer feedback. A quimera R1T2 está disponível em huggingface.co/tngtech/deepseek-tng-r1t2-chimerae consultas técnicas podem ser direcionadas para [email protected].
Para antecedentes técnicos e metodologia de benchmark, o artigo de pesquisa da TNG está disponível em ARXIV: 2506.14794.
Insights diários sobre casos de uso de negócios com VB diariamente
Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.
Obrigado por assinar. Confira mais boletins de VB aqui.
Ocorreu um erro.