一些常用的命令与配置

一、大模型相关

hf-mirror

参考文档：https://hf-mirror.com/

#1. 安装依赖
pip install -U "huggingface_hub[hf_transfer]" modelscope

#2. 设置环境变量
# Linux 建议将这一行写入 ~/.bashrc
export HF_ENDPOINT=https://hf-mirror.com
export HF_HUB_ENABLE_HF_TRANSFER=1
# Windows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"

#3.1 下载模型
# 旧命令
huggingface-cli download --resume-download gpt2 --local-dir gpt2
# 新的、推荐的命令
hf download --resume-download gpt2 --local-dir gpt2

#3.2 下载数据集
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
# 可以添加 --local-dir-use-symlinks False 参数禁用文件软链接，这样下载路径下所见即所得

modelscope

# Ubuntu 上用 ModelScope 预下载
python - <<'PY'
from modelscope.hub.snapshot_download import snapshot_download
local_dir = snapshot_download(
    model_id='vidore/colqwen2-v1.0',  # 若该ID不存在，需换ModelScope上的实际模型ID
    cache_dir='/data/models'
)
print(local_dir)
PY

通过vllm容器部署LLM

# 单GPU
docker run --name=deepseek-r1-32b-awq \
        --volume /etc/localtime:/etc/localtime \
        --volume /etc/timezone:/etc/timezone:ro \
        --volume /home/cjw:/host \
        --volume /root/.cache:/root/.cache \
        --network=bridge \
        --workdir=/vllm-workspace \
        -p 30001:8000 \
        --gpus='"device=0"' \
        --detach=true \
        -t \
        vllm/vllm-openai:v0.18.0 \
        --model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ \
        --served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ DeepSeek-R1-Distill-Qwen-32B-AWQ-Think  \
        --max-model-len 4096 \
        --max-num-seqs 128 \
        --enable-prefix-caching \
        --gpu-memory-utilization 0.9 \
        --reasoning-parser qwen3

# 多GPU
docker run --name=deepseek-r1-32b-awq \
        --hostname=a0e56df09f22 \
        --mac-address=b6:6a:0d:c6:e5:6c \
        --volume /etc/localtime:/etc/localtime \
        --volume /etc/timezone:/etc/timezone:ro \
        --volume /home/cjw:/host \
        --volume /root/.cache:/root/.cache \
        --network=bridge \
        --workdir=/vllm-workspace \
        -p 30001:8000 \
        --gpus='"device=1,2"' \
        --detach=true \
        -t \
        vllm/vllm-openai:v0.18.0 \
        --model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ \
        --served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ DeepSeek-R1-Distill-Qwen-32B-AWQ-Think  \
        --tensor-parallel-size 2 --max-model-len 4096 --max-num-seqs 128 --enable-prefix-caching --gpu-memory-utilization 0.9 --reasoning-parser qwen3

# vLLM 核心引擎参数解释，它们是 vllm/vllm-openai 镜像内部程序的配置参数。
--model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ: 指定模型权重存放的路径。
--served-model-name ...: API 调用时的模型名称别名。可以设置多个名字，调用时传其中任何一个都能识别。
--max-model-len 16384:
  作用：模型处理的最大上下文长度（包括输入和输出的总和）。
  提示：数值越大，占用的 KV Cache 显存越多。根据模型本身激活参数大小而定，如果模型本身激活参数已经很大了此处再设置得很大，显存可能会爆。

--max-num-seqs 128: 允许同时处理的最大请求序列数。
--enable-prefix-caching:
  作用：前缀缓存优化。如果多个用户问了相同的前缀（比如同样的系统提示词），vLLM 会缓存这部分的计算结果，极大提升响应速度并节省计算资源。

--gpu-memory-utilization 0.9:
  作用：控制 vLLM 占用显卡的比例。默认 0.9 表示占用显卡总显存的 90% 来作为模型权重和 KV Cache 的池子。

--reasoning-parser qwen3:
  作用：专门针对推理型模型（如 DeepSeek-R1 系列）的解析器配置。它能帮助 vLLM 更好地处理模型生成的 <think> 标签，确保输出格式符合预期。

命令与配置

#命令与配置

一些常用的命令与配置

https://jiangsanyin.github.io/2025/10/20/一些常用的命令与配置/

作者

sanyinjiang

发布于

2025年10月20日

许可协议

LoRA微调原理上一篇

大量（TB以上）医疗数据自动标注下一篇