Qwen3.6-27B 模型效果实测

Administrator

2026-06-01

模型

模型部署

模型下载

用魔塔命令下载模型文件，Qwen/Qwen3.6-27B

modelscope download --model Qwen/Qwen3.6-27B --local_dir /data/Qwen3.6-27B

docker-compose.yml 文件

我这里是 L20 两张卡一共 92G 显存

services:
  qwen35:
    container_name: Qwen3.6-27B
    image: vllm/vllm-openai:v0.20-cu130
    restart: always

    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

    ipc: host
    shm_size: 64gb

    ports:
      - "8000:8000"

    volumes:
      - /data/Qwen3.6-27B/:/models/Qwen3.6-27B

    command: >
      /models/Qwen3.6-27B
      --served-model-name Qwen3.6-27B
      --host 0.0.0.0
      --port 8000
      --max-model-len 262144
      --tensor-parallel-size 2
      --gpu-memory-utilization 0.85
      --max-num-seqs 8 
      --enable-prefix-caching
      --enable-chunked-prefill
      --trust-remote-code
      --enable-auto-tool-choice
      --tool-call-parser qwen3_coder
      --performance-mode throughput
      --language-model-only
      --kv-cache-dtype auto
      --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":4}'

    logging:
      driver: "json-file"
      options:
        max-size: "100m"
        max-file: "3"

单并发测试结果：

总耗时：25.24s

输入：2048 tokens

输出：2048 tokens

总 token 数： 4096 tokens

输出吞吐：81.15 tokens/s

总token 吞吐：162.31 tokens/s

第一个生成 token：533.63 ms

每个输出 token 平均耗时：11.58 ms --> 换算为token/s：1000/11.58 == 86.35 tokens/s

token 间延迟平均值：57.06ms

10并发测试结果

指标	单请求测试	10 请求测试	变化
请求数	1	10	增加
峰值并发	1	10	增加
总耗时	25.24s	65.74s	增加
输出吞吐	81.15 tok/s	311.51 tok/s	提升 3.84 倍
总 token 吞吐	162.31 tok/s	623.02 tok/s	提升 3.84 倍
Mean TTFT	533 ms	9401 ms	明显变差
P99 TTFT	533 ms	37265 ms	大幅变差
Mean TPOT	11.58 ms	19.32 ms	变差
Acceptance rate	98.37%	73.40%	下降