O que é o Qwen — o modelo open source da Alibaba que está dominando o mercado | Blog SearchOps

De onde vem o Qwen

Qwen (pronuncia-se "tchuen") é a família de modelos de linguagem da Alibaba Cloud. O nome original é Tongyi Qianwen — "compreensão de mil perguntas", em tradução livre. O primeiro modelo apareceu em abril de 2023, e de lá pra cá a evolução foi agressiva.

A timeline resumida:

Qwen 1.0 (2023) — modelos densos de 1,8B a 14B parâmetros. Arquitetura baseada em Llama com rotary positional encoding, RMSNorm e pré-treino massivo em texto, código e dados multilíngues.
Qwen 2 (2024) — contexto expandido pra 32K (até 131K com técnicas de extensão), Grouped Query Attention (GQA), variantes densas e Mixture-of-Experts (MoE). Corpus de pré-treino de 7 trilhões de tokens.
Qwen 3 (abril 2025) — salto arquitetural. Modelos de 0,6B a 235B parâmetros, densos e MoE, todos sob licença Apache 2.0. Introduziu o modo de raciocínio híbrido (thinking + non-thinking).
Qwen 3.5 (fevereiro 2026) — refinamento do Qwen 3 com melhorias em eficiência e capacidades agênticas.
Qwen 3.6 Plus (março 2026) — flagship atual. Arquitetura híbrida com atenção linear eficiente + MoE esparso, 1 milhão de tokens de contexto, raciocínio always-on.

Até janeiro de 2026, os modelos Qwen acumulavam mais de 700 milhões de downloads no Hugging Face e mais de 200 mil modelos derivados. É a família open-weight mais implantada comercialmente no mundo.

O que faz o Qwen 3.6 Plus diferente

O Qwen 3.6 Plus não é só uma atualização incremental. Ele foi desenhado do zero pra ser um modelo agêntico — feito pra operar como motor de agentes de IA, não só responder perguntas.

Especificações técnicas

| Especificação | Valor |
|---------------|-------|
| Contexto | 1.000.000 tokens |
| Output máximo | 65.536 tokens |
| Arquitetura | Híbrida: atenção linear + MoE esparso |
| Raciocínio | Chain-of-thought sempre ativo |
| Tool calling | Nativo, formato compatível com OpenAI |
| Multimodal | Texto, imagens, documentos |
| Licença | Apache 2.0 (modelos open-weight) |

Um milhão de tokens de contexto equivale a aproximadamente 2.000 páginas de texto numa única requisição. Isso muda o que é possível fazer com um modelo: análise de codebases inteiros, raciocínio sobre documentos longos, agentes multi-step que mantêm contexto completo.

Raciocínio sempre ativo

Diferente de modelos que ativam raciocínio estendido sob demanda, o Qwen 3.6 Plus raciocina em cadeia por padrão — todo prompt passa por chain-of-thought antes de gerar a resposta final. Isso melhora consistência em tarefas complexas de código, debugging e análise técnica.

O modo pode ser controlado por requisição. Pra tarefas simples onde velocidade importa mais que profundidade, dá pra desligar o raciocínio estendido via API.

Preserve thinking

Essa é uma feature que interessa diretamente quem constrói agentes. O parâmetro preserve_thinking mantém o conteúdo de raciocínio de todos os turnos anteriores na conversa. Num agente que executa múltiplos passos — lê arquivo, chama ferramenta, analisa resultado, decide próxima ação — isso significa que o modelo não precisa re-derivar o raciocínio a cada passo.

O efeito prático: menos erros de consistência entre passos, e em muitos casos, menos tokens consumidos porque o modelo não repete trabalho cognitivo.

Benchmarks — onde ele se destaca

O Qwen 3.6 Plus não lidera todos os benchmarks, mas compete de igual com os modelos mais caros do mercado.

| Benchmark | Qwen 3.6 Plus | Claude 4.5 Opus | Claude Opus 4.6 |
|-----------|---------------|-----------------|-----------------|
| Terminal-Bench 2.0 | 61.6 | 59.3 | 65.4 |
| SWE-bench Verified | 78.8 | 80.9 | — |
| MCPMark (tool calling) | 48.2% | 42.3% | — |

Dois pontos que chamam atenção:

Terminal-Bench 2.0 — mede capacidade de operar num terminal real, executando comandos, interpretando saída, resolvendo problemas. O Qwen 3.6 Plus superou o Claude 4.5 Opus aqui. O Opus 4.6 retomou a liderança depois, mas a distância é pequena.

MCPMark — avalia confiabilidade em tool calling, a capacidade do modelo de chamar ferramentas externas corretamente. Qwen 3.6 Plus lidera com 48.2% contra 42.3% do Claude 4.5. Pra quem constrói agentes, esse benchmark é o mais relevante dos três.

A velocidade de inferência também merece menção: benchmarks da comunidade medem o Qwen 3.6 Plus a aproximadamente 3x a velocidade do Claude Opus 4.6. Modelo mais barato, mais rápido e com tool calling mais confiável — entende-se por que a adoção disparou.

Capacidades multimodais

O Qwen 3.6 Plus não é só texto. Dentro da janela de 1M tokens, ele processa:

Imagens — leitura de documentos, interpretação de layouts de UI, capturas de tela
Documentos — PDFs, planilhas, arquivos longos
Código a partir de design — gera frontend a partir de mockups visuais
Vídeo — raciocínio sobre mudanças ao longo do tempo em sequências de frames

Isso não é um modelo separado (como o GPT-4V era pro GPT-4 texto). É nativo na mesma arquitetura.

Ecossistema e variantes

A família Qwen não é só o flagship. A estratégia da Alibaba é cobrir todos os tamanhos:

Modelos densos — versões menores (7B, 14B, 32B) que rodam em hardware acessível, incluindo laptops com GPU de consumo
Modelos MoE — variantes maiores que ativam só uma fração dos parâmetros por token, otimizando a relação performance/custo
Modelos especializados — Qwen-Coder pra código, Qwen-VL pra visão, Qwen-Audio pra áudio

Todos os modelos open-weight da família usam licença Apache 2.0 — sem restrição de uso comercial. Isso explica os 200 mil+ modelos derivados: empresas pegam o Qwen, fazem fine-tuning pro seu caso de uso e colocam em produção sem pagar royalties.

Preço e acesso

O Qwen 3.6 Plus está disponível por múltiplos canais:

Via Alibaba Cloud Model Studio — API direta da Alibaba.

Via OpenRouter — integrado como qualquer outro modelo:

```python
from openai import OpenAI

client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sua-chave-openrouter"
)

response = client.chat.completions.create(
model="qwen/qwen3.6-plus",
messages=[
{"role": "user", "content": "Analise este codebase e identifique vulnerabilidades."}
]
)
```

Preço no OpenRouter:

| | Custo por milhão de tokens |
|--|---------------------------|
| Input | US$ 0,325 |
| Output | US$ 1,95 |

Pra comparação: o Claude Opus 4.6 custa US$ 15/M input e US$ 75/M output no OpenRouter. O Qwen 3.6 Plus é 46x mais barato no input e 38x mais barato no output. Mesmo comparando com o Claude Sonnet, a diferença é significativa.

Existe também a variante :free no OpenRouter pra testes, com limites de requisição por dia.

Self-hosting — por ser open-weight com Apache 2.0, o modelo pode ser hospedado em infraestrutura própria. A variante densa roda em uma única GPU H100 a FP8. O flagship MoE precisa de 8x H100. Variantes menores (quando liberadas) devem rodar em hardware de consumo.

O contexto maior

O Qwen 3.6 Plus não existe no vácuo. Ele faz parte de um movimento maior: modelos open source chineses (Qwen, DeepSeek, MiMo, MiniMax) já representam mais de 45% do tráfego do OpenRouter. Isso não é coincidência.

São modelos que combinam performance de fronteira, licença permissiva e custo radicalmente menor. Pra a maioria dos casos de uso — especialmente agentes, automação e processamento de documentos — a diferença de qualidade pro Claude ou GPT não justifica a diferença de preço.

Isso não significa que o Qwen substitui tudo. Pra raciocínio complexo puro, o Claude Opus ainda leva vantagem. Pra geração criativa de texto, o GPT tem seu espaço. Mas pra trabalho agêntico — chamar ferramentas, operar em terminal, processar contexto longo — o Qwen 3.6 Plus é hoje a melhor relação custo-benefício disponível.

O que levar daqui

O Qwen deixou de ser "o modelo chinês alternativo" e virou referência. O 3.6 Plus entrega contexto de 1M tokens, raciocínio sempre ativo, tool calling líder de mercado e tudo isso a uma fração do preço dos concorrentes.

Pra quem constrói agentes de IA, automatiza fluxos ou precisa processar grandes volumes de texto e código, vale testar. O modelo é open-weight, a API é compatível com o formato OpenAI e o acesso via OpenRouter é imediato.