使用docker部署 SGLang并在本地部署 Qwen3.5-35B-A3B

晚安

公告

这里什么都没有

了解更多

标签

晚安

公告

这里什么都没有

了解更多

站点统计

文章

19

分类

5

标签

35

总字数

9,325

运行天数

0 天

最后活动

0 天前

晚安

公告

这里什么都没有

了解更多

站点统计

文章

19

分类

5

标签

35

总字数

9,325

运行天数

0 天

最后活动

0 天前

146 字

1 分钟

使用docker部署 SGLang并在本地部署 Qwen3.5-35B-A3B

2026-03-15

教程

SGLang

/

AI

/

本地模型

前言#

前面不管是直接在本地环境还是使用docker部署了openclaw，一开始使用的是火山的coding plan，不知道因为我使用的是minimax模型的原因，速度很慢，所以就想着本地部署一下，正好朋友那边有2张4090，他也想让我试试看，所以就选择了用SGLang来部署

compose文件#

1
services:
2
  sglang:
3
    image: lmsysorg/sglang:latest
4
    container_name: sglang
5
    volumes:
6
      - ./cache/huggingface:/root/.cache/huggingface
7
    restart: always
8
    network_mode: host
9
    privileged: true
10
    gpus: all
11
    environment:
12
      - HF_TOKEN=<secret>
13
      - NVIDIA_VISIBLE_DEVICES=all
14
    entrypoint: python3 -m sglang.launch_server
15
    command: >
16
      --model-path Qwen/Qwen3.5-35B-A3B
17
      --host 0.0.0.0
18
      --port 30000
19
      --tp 2
20
      --trust-remote-code
21
      --tool-call-parser qwen3_coder
22
      --context-length 262144
23
      --max-total-tokens 262144
24
    ulimits:
25
      memlock: -1
26
      stack: 67108864
27
    ipc: host
28
    healthcheck:
29
      test: ["CMD-SHELL", "curl -f http://localhost:30000/health || exit 1"]

注释#

1
# ================= SGLang 推理服务部署配置 =================
2
# 用于在本地或服务器上快速部署 SGLang LLM 推理服务
3
# 目标模型：Qwen/Qwen3.5-35B-A3B (需确保显存足够)
4

5
services:
6
  # 服务名称
7
  sglang:
8
    # Docker 镜像名称及标签
9
    image: lmsysorg/sglang:latest
10
    # 指定容器名称，便于管理
11
    container_name: sglang
12

13
    # 卷挂载：将 HuggingFace 模型缓存目录挂载到宿主机
14
    # 避免每次容器重启都重新下载几十 GB 的模型文件
15
    volumes:
16
      - ./cache/huggingface:/root/.cache/huggingface
17

18
    # 容器重启策略：如果容器意外退出或宿主机重启，自动重启
19
    restart: always
20

21
    # 网络模式：使用 host 网络
22
    # 效果：容器端口直接暴露给宿主机，无需端口映射，性能更好
23
    network_mode: host
24

25
    # 特权模式：给予容器更高的权限
26
    # 注意：通常用于访问底层硬件或需要特定内核功能（此处建议仅在实际需要时开启）
27
    privileged: true
28

29
    # GPU 分配：使用所有可用的 NVIDIA GPU
30
    gpus: all
31

32
    # 环境变量配置
33
    environment:
34
      # HuggingFace 访问令牌 (需替换为真实 Token)
35
      # 用于下载私有模型或大文件
36
      - HF_TOKEN=<secret>
37
      # 限制容器可见的 GPU 设备 (通常与 gpus: all 配合，确保驱动可见)
38
      - NVIDIA_VISIBLE_DEVICES=all
39

40
    # 容器启动入口：执行 Python 模块模式启动 SGLang
41
    entrypoint: python3 -m sglang.launch_server
42

43
    # 启动命令参数：详细配置推理服务
44
    command: >
45
      # 模型路径 (HuggingFace 上的模型 ID)
46
      --model-path Qwen/Qwen3.5-35B-A3B
47

48
      # 监听地址 (0.0.0.0 允许外部访问)
49
      --host 0.0.0.0
50

51
      # 服务端口
52
      --port 30000
53

54
      # 张量并行度 (TP)
55
      # 如果有多张卡，建议设置 TP 等于卡数 (例如 2 卡则 TP 2)
56
      # 请确保 TP 数值不超过实际 GPU 数量
57
      --tp 2
58

59
      # 信任远程代码 (HuggingFace 模型常需此参数)
60
      --trust-remote-code
61

62
      # 工具调用解析器 (配合 Qwen 的特定格式)
63
      --tool-call-parser qwen3_coder
64

65
      # 上下文长度 (Token 数量)
66
      # 35B 模型通常能处理较长的上下文，但消耗显存巨大
67
      --context-length 262144
68

69
      # 最大总 Token 数
70
      --max-total-tokens 262144
71

72
    # 系统资源限制 (System Limits)
73
    # LLM 推理通常需要共享内存和较大的栈空间
74
    ulimits:
75
      # 共享内存限制：不限制，防止 PyTorch/CUDA 共享内存报错
76
      memlock: -1
77
      # 栈大小：64MB (默认通常较小，LLM 需更大栈空间)
78
      stack: 67108864
79

80
    # 进程间通信 (IPC)：使用宿主机命名空间
81
    # 关键配置：多进程或分布式推理时，确保 IPC 正确共享
82
    ipc: host
83

84
    # 健康检查配置
85
    healthcheck:
86
      # 检查脚本：每秒/每 5 秒尝试 curl 请求健康端点
87
      # 如果返回非 200 状态码，标记为 unhealthy
88
      test: ["CMD-SHELL", "curl -f http://localhost:30000/health || exit 1"]
89
      # 可选配置：启动前等待时间、重试次数、失败阈值等
90
      interval: 10s
91
      timeout: 5s
92
      retries: 3
93
      start_period: 60s
94

95
# ================= 注意事项 =================
96
# 1. 显存要求：Qwen3.5-35B-A3B 精度通常较大，建议至少 4 张 24G 或 2 张 48G A100/H800
97
# 2. TP 设置：请根据实际 GPU 数量修改 command 中的 --tp 参数
98
# 3. 权限问题：宿主机需要安装 NVIDIA Container Toolkit 才能正确识别 gpus: all
99
# 4. 缓存目录：确保宿主机 ./cache/huggingface 目录存在且有权写入