一些常用的命令与配置

一、大模型相关

hf-mirror

参考文档:https://hf-mirror.com/

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#1. 安装依赖
pip install -U "huggingface_hub[hf_transfer]" modelscope

#2. 设置环境变量
# Linux 建议将这一行写入 ~/.bashrc
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
# Windows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"

#3.1 下载模型
# 旧命令
huggingface-cli download --resume-download gpt2 --local-dir gpt2
# 新的、推荐的命令
hf download --resume-download gpt2 --local-dir gpt2

#3.2 下载数据集
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
# 可以添加 --local-dir-use-symlinks False 参数禁用文件软链接,这样下载路径下所见即所得

modelscope

1
2
3
4
5
6
7
8
9
# Ubuntu 上用 ModelScope 预下载
python - <<'PY'
from modelscope.hub.snapshot_download import snapshot_download
local_dir = snapshot_download(
model_id='vidore/colqwen2-v1.0', # 若该ID不存在,需换ModelScope上的实际模型ID
cache_dir='/data/models'
)
print(local_dir)
PY

通过vllm容器部署LLM

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
# 单GPU
docker run --name=deepseek-r1-32b-awq \
--volume /etc/localtime:/etc/localtime \
--volume /etc/timezone:/etc/timezone:ro \
--volume /home/cjw:/host \
--volume /root/.cache:/root/.cache \
--network=bridge \
--workdir=/vllm-workspace \
-p 30001:8000 \
--gpus='"device=0"' \
--detach=true \
-t \
vllm/vllm-openai:v0.18.0 \
--model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ \
--served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ DeepSeek-R1-Distill-Qwen-32B-AWQ-Think \
--max-model-len 4096 \
--max-num-seqs 128 \
--enable-prefix-caching \
--gpu-memory-utilization 0.9 \
--reasoning-parser qwen3

# 多GPU
docker run --name=deepseek-r1-32b-awq \
--hostname=a0e56df09f22 \
--mac-address=b6:6a:0d:c6:e5:6c \
--volume /etc/localtime:/etc/localtime \
--volume /etc/timezone:/etc/timezone:ro \
--volume /home/cjw:/host \
--volume /root/.cache:/root/.cache \
--network=bridge \
--workdir=/vllm-workspace \
-p 30001:8000 \
--gpus='"device=1,2"' \
--detach=true \
-t \
vllm/vllm-openai:v0.18.0 \
--model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ \
--served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ DeepSeek-R1-Distill-Qwen-32B-AWQ-Think \
--tensor-parallel-size 2 --max-model-len 4096 --max-num-seqs 128 --enable-prefix-caching --gpu-memory-utilization 0.9 --reasoning-parser qwen3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# vLLM 核心引擎参数解释,它们是 vllm/vllm-openai 镜像内部程序的配置参数。
--model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ: 指定模型权重存放的路径。
--served-model-name ...: API 调用时的模型名称别名。可以设置多个名字,调用时传其中任何一个都能识别。
--max-model-len 16384:
作用:模型处理的最大上下文长度(包括输入和输出的总和)。
提示:数值越大,占用的 KV Cache 显存越多。根据模型本身激活参数大小而定,如果模型本身激活参数已经很大了此处再设置得很大,显存可能会爆。

--max-num-seqs 128: 允许同时处理的最大请求序列数。
--enable-prefix-caching:
作用:前缀缓存优化。如果多个用户问了相同的前缀(比如同样的系统提示词),vLLM 会缓存这部分的计算结果,极大提升响应速度并节省计算资源。

--gpu-memory-utilization 0.9:
作用:控制 vLLM 占用显卡的比例。默认 0.9 表示占用显卡总显存的 90% 来作为模型权重和 KV Cache 的池子。

--reasoning-parser qwen3:
作用:专门针对推理型模型(如 DeepSeek-R1 系列)的解析器配置。它能帮助 vLLM 更好地处理模型生成的 <think> 标签,确保输出格式符合预期。

一些常用的命令与配置
https://jiangsanyin.github.io/2025/10/20/一些常用的命令与配置/
作者
sanyinjiang
发布于
2025年10月20日
许可协议