ferramentas

O que é o Qwen — o modelo open source da Alibaba que está dominando o mercado

Qwen 3.6 Plus combina 1M de contexto, raciocínio sempre ativo e tool calling nativo numa arquitetura MoE que compete de igual com Claude e GPT

O que é o Qwen — o modelo open source da Alibaba que está dominando o mercado

De onde vem o Qwen

Qwen (pronuncia-se "tchuen") é a família de modelos de linguagem da Alibaba Cloud. O nome original é Tongyi Qianwen — "compreensão de mil perguntas", em tradução livre. O primeiro modelo apareceu em abril de 2023, e de lá pra cá a evolução foi agressiva.

A timeline resumida:

  • Qwen 1.0 (2023) — modelos densos de 1,8B a 14B parâmetros. Arquitetura baseada em Llama com rotary positional encoding, RMSNorm e pré-treino massivo em texto, código e dados multilíngues.
  • Qwen 2 (2024) — contexto expandido pra 32K (até 131K com técnicas de extensão), Grouped Query Attention (GQA), variantes densas e Mixture-of-Experts (MoE). Corpus de pré-treino de 7 trilhões de tokens.
  • Qwen 3 (abril 2025) — salto arquitetural. Modelos de 0,6B a 235B parâmetros, densos e MoE, todos sob licença Apache 2.0. Introduziu o modo de raciocínio híbrido (thinking + non-thinking).
  • Qwen 3.5 (fevereiro 2026) — refinamento do Qwen 3 com melhorias em eficiência e capacidades agênticas.
  • Qwen 3.6 Plus (março 2026) — flagship atual. Arquitetura híbrida com atenção linear eficiente + MoE esparso, 1 milhão de tokens de contexto, raciocínio always-on.

Até janeiro de 2026, os modelos Qwen acumulavam mais de 700 milhões de downloads no Hugging Face e mais de 200 mil modelos derivados. É a família open-weight mais implantada comercialmente no mundo.

O que faz o Qwen 3.6 Plus diferente

O Qwen 3.6 Plus não é só uma atualização incremental. Ele foi desenhado do zero pra ser um modelo agêntico — feito pra operar como motor de agentes de IA, não só responder perguntas.

Especificações técnicas

Especificação Valor
Contexto 1.000.000 tokens
Output máximo 65.536 tokens
Arquitetura Híbrida: atenção linear + MoE esparso
Raciocínio Chain-of-thought sempre ativo
Tool calling Nativo, formato compatível com OpenAI
Multimodal Texto, imagens, documentos
Licença Apache 2.0 (modelos open-weight)

Um milhão de tokens de contexto equivale a aproximadamente 2.000 páginas de texto numa única requisição. Isso muda o que é possível fazer com um modelo: análise de codebases inteiros, raciocínio sobre documentos longos, agentes multi-step que mantêm contexto completo.

Raciocínio sempre ativo

Diferente de modelos que ativam raciocínio estendido sob demanda, o Qwen 3.6 Plus raciocina em cadeia por padrão — todo prompt passa por chain-of-thought antes de gerar a resposta final. Isso melhora consistência em tarefas complexas de código, debugging e análise técnica.

O modo pode ser controlado por requisição. Pra tarefas simples onde velocidade importa mais que profundidade, dá pra desligar o raciocínio estendido via API.

Preserve thinking

Essa é uma feature que interessa diretamente quem constrói agentes. O parâmetro preserve_thinking mantém o conteúdo de raciocínio de todos os turnos anteriores na conversa. Num agente que executa múltiplos passos — lê arquivo, chama ferramenta, analisa resultado, decide próxima ação — isso significa que o modelo não precisa re-derivar o raciocínio a cada passo.

O efeito prático: menos erros de consistência entre passos, e em muitos casos, menos tokens consumidos porque o modelo não repete trabalho cognitivo.

Benchmarks — onde ele se destaca

O Qwen 3.6 Plus não lidera todos os benchmarks, mas compete de igual com os modelos mais caros do mercado.

Benchmark Qwen 3.6 Plus Claude 4.5 Opus Claude Opus 4.6
Terminal-Bench 2.0 61.6 59.3 65.4
SWE-bench Verified 78.8 80.9
MCPMark (tool calling) 48.2% 42.3%

Dois pontos que chamam atenção:

Terminal-Bench 2.0 — mede capacidade de operar num terminal real, executando comandos, interpretando saída, resolvendo problemas. O Qwen 3.6 Plus superou o Claude 4.5 Opus aqui. O Opus 4.6 retomou a liderança depois, mas a distância é pequena.

MCPMark — avalia confiabilidade em tool calling, a capacidade do modelo de chamar ferramentas externas corretamente. Qwen 3.6 Plus lidera com 48.2% contra 42.3% do Claude 4.5. Pra quem constrói agentes, esse benchmark é o mais relevante dos três.

A velocidade de inferência também merece menção: benchmarks da comunidade medem o Qwen 3.6 Plus a aproximadamente 3x a velocidade do Claude Opus 4.6. Modelo mais barato, mais rápido e com tool calling mais confiável — entende-se por que a adoção disparou.

Capacidades multimodais

O Qwen 3.6 Plus não é só texto. Dentro da janela de 1M tokens, ele processa:

  • Imagens — leitura de documentos, interpretação de layouts de UI, capturas de tela
  • Documentos — PDFs, planilhas, arquivos longos
  • Código a partir de design — gera frontend a partir de mockups visuais
  • Vídeo — raciocínio sobre mudanças ao longo do tempo em sequências de frames

Isso não é um modelo separado (como o GPT-4V era pro GPT-4 texto). É nativo na mesma arquitetura.

Ecossistema e variantes

A família Qwen não é só o flagship. A estratégia da Alibaba é cobrir todos os tamanhos:

  • Modelos densos — versões menores (7B, 14B, 32B) que rodam em hardware acessível, incluindo laptops com GPU de consumo
  • Modelos MoE — variantes maiores que ativam só uma fração dos parâmetros por token, otimizando a relação performance/custo
  • Modelos especializados — Qwen-Coder pra código, Qwen-VL pra visão, Qwen-Audio pra áudio

Todos os modelos open-weight da família usam licença Apache 2.0 — sem restrição de uso comercial. Isso explica os 200 mil+ modelos derivados: empresas pegam o Qwen, fazem fine-tuning pro seu caso de uso e colocam em produção sem pagar royalties.

Preço e acesso

O Qwen 3.6 Plus está disponível por múltiplos canais:

Via Alibaba Cloud Model Studio — API direta da Alibaba.

Via OpenRouter — integrado como qualquer outro modelo:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sua-chave-openrouter"
)

response = client.chat.completions.create(
    model="qwen/qwen3.6-plus",
    messages=[
        {"role": "user", "content": "Analise este codebase e identifique vulnerabilidades."}
    ]
)

Preço no OpenRouter:

Custo por milhão de tokens
Input US$ 0,325
Output US$ 1,95

Pra comparação: o Claude Opus 4.6 custa US$ 15/M input e US$ 75/M output no OpenRouter. O Qwen 3.6 Plus é 46x mais barato no input e 38x mais barato no output. Mesmo comparando com o Claude Sonnet, a diferença é significativa.

Existe também a variante :free no OpenRouter pra testes, com limites de requisição por dia.

Self-hosting — por ser open-weight com Apache 2.0, o modelo pode ser hospedado em infraestrutura própria. A variante densa roda em uma única GPU H100 a FP8. O flagship MoE precisa de 8x H100. Variantes menores (quando liberadas) devem rodar em hardware de consumo.

O contexto maior

O Qwen 3.6 Plus não existe no vácuo. Ele faz parte de um movimento maior: modelos open source chineses (Qwen, DeepSeek, MiMo, MiniMax) já representam mais de 45% do tráfego do OpenRouter. Isso não é coincidência.

São modelos que combinam performance de fronteira, licença permissiva e custo radicalmente menor. Pra a maioria dos casos de uso — especialmente agentes, automação e processamento de documentos — a diferença de qualidade pro Claude ou GPT não justifica a diferença de preço.

Isso não significa que o Qwen substitui tudo. Pra raciocínio complexo puro, o Claude Opus ainda leva vantagem. Pra geração criativa de texto, o GPT tem seu espaço. Mas pra trabalho agêntico — chamar ferramentas, operar em terminal, processar contexto longo — o Qwen 3.6 Plus é hoje a melhor relação custo-benefício disponível.

O que levar daqui

O Qwen deixou de ser "o modelo chinês alternativo" e virou referência. O 3.6 Plus entrega contexto de 1M tokens, raciocínio sempre ativo, tool calling líder de mercado e tudo isso a uma fração do preço dos concorrentes.

Pra quem constrói agentes de IA, automatiza fluxos ou precisa processar grandes volumes de texto e código, vale testar. O modelo é open-weight, a API é compatível com o formato OpenAI e o acesso via OpenRouter é imediato.

qweniallmopen-sourcealibabainteligencia-artificial