Qwen3.6-27B 模型效果实测

7

模型部署

模型下载

用魔塔命令下载模型文件,Qwen/Qwen3.6-27B

modelscope download --model Qwen/Qwen3.6-27B --local_dir /data/Qwen3.6-27B

docker-compose.yml 文件

我这里是 L20 两张卡一共 92G 显存

services:
  qwen35:
    container_name: Qwen3.6-27B
    image: vllm/vllm-openai:v0.20-cu130
    restart: always

    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

    ipc: host
    shm_size: 64gb

    ports:
      - "8000:8000"

    volumes:
      - /data/Qwen3.6-27B/:/models/Qwen3.6-27B

    command: >
      /models/Qwen3.6-27B
      --served-model-name Qwen3.6-27B
      --host 0.0.0.0
      --port 8000
      --max-model-len 262144
      --tensor-parallel-size 2
      --gpu-memory-utilization 0.85
      --max-num-seqs 8 
      --enable-prefix-caching
      --enable-chunked-prefill
      --trust-remote-code
      --enable-auto-tool-choice
      --tool-call-parser qwen3_coder
      --performance-mode throughput
      --language-model-only
      --kv-cache-dtype auto
      --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":4}'

    logging:
      driver: "json-file"
      options:
        max-size: "100m"
        max-file: "3"

单并发测试结果:

总耗时:25.24s

输入:2048 tokens

输出:2048 tokens

总 token 数: 4096 tokens

输出吞吐:81.15 tokens/s

总token 吞吐:162.31 tokens/s

第一个生成 token:533.63 ms

每个输出 token 平均耗时:11.58 ms --> 换算为token/s:1000/11.58 == 86.35 tokens/s

token 间延迟平均值:57.06ms

10并发测试结果

指标

单请求测试

10 请求测试

变化

请求数

1

10

增加

峰值并发

1

10

增加

总耗时

25.24s

65.74s

增加

输出吞吐

81.15 tok/s

311.51 tok/s

提升 3.84 倍

总 token 吞吐

162.31 tok/s

623.02 tok/s

提升 3.84 倍

Mean TTFT

533 ms

9401 ms

明显变差

P99 TTFT

533 ms

37265 ms

大幅变差

Mean TPOT

11.58 ms

19.32 ms

变差

Acceptance rate

98.37%

73.40%

下降