一、大模型相关
hf-mirror
参考文档:https://hf-mirror.com/
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| #1. 安装依赖 pip install -U "huggingface_hub[hf_transfer]" modelscope
#2. 设置环境变量 # Linux 建议将这一行写入 ~/.bashrc export HF_ENDPOINT=https://hf-mirror.com export HF_HUB_ENABLE_HF_TRANSFER=1 # Windows Powershell $env:HF_ENDPOINT = "https://hf-mirror.com"
#3.1 下载模型 # 旧命令 huggingface-cli download --resume-download gpt2 --local-dir gpt2 # 新的、推荐的命令 hf download --resume-download gpt2 --local-dir gpt2
#3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext # 可以添加 --local-dir-use-symlinks False 参数禁用文件软链接,这样下载路径下所见即所得
|
modelscope
1 2 3 4 5 6 7 8 9
| # Ubuntu 上用 ModelScope 预下载 python - <<'PY' from modelscope.hub.snapshot_download import snapshot_download local_dir = snapshot_download( model_id='vidore/colqwen2-v1.0', # 若该ID不存在,需换ModelScope上的实际模型ID cache_dir='/data/models' ) print(local_dir) PY
|
通过vllm容器部署LLM
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
| docker run --name=deepseek-r1-32b-awq \ --volume /etc/localtime:/etc/localtime \ --volume /etc/timezone:/etc/timezone:ro \ --volume /home/cjw:/host \ --volume /root/.cache:/root/.cache \ --network=bridge \ --workdir=/vllm-workspace \ -p 30001:8000 \ --gpus='"device=0"' \ --detach=true \ -t \ vllm/vllm-openai:v0.18.0 \ --model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ \ --served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ DeepSeek-R1-Distill-Qwen-32B-AWQ-Think \ --max-model-len 4096 \ --max-num-seqs 128 \ --enable-prefix-caching \ --gpu-memory-utilization 0.9 \ --reasoning-parser qwen3
docker run --name=deepseek-r1-32b-awq \ --hostname=a0e56df09f22 \ --mac-address=b6:6a:0d:c6:e5:6c \ --volume /etc/localtime:/etc/localtime \ --volume /etc/timezone:/etc/timezone:ro \ --volume /home/cjw:/host \ --volume /root/.cache:/root/.cache \ --network=bridge \ --workdir=/vllm-workspace \ -p 30001:8000 \ --gpus='"device=1,2"' \ --detach=true \ -t \ vllm/vllm-openai:v0.18.0 \ --model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ \ --served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ DeepSeek-R1-Distill-Qwen-32B-AWQ-Think \ --tensor-parallel-size 2 --max-model-len 4096 --max-num-seqs 128 --enable-prefix-caching --gpu-memory-utilization 0.9 --reasoning-parser qwen3
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| --model /host/DeepSeek-R1-Distill-Qwen-32B-AWQ: 指定模型权重存放的路径。 --served-model-name ...: API 调用时的模型名称别名。可以设置多个名字,调用时传其中任何一个都能识别。 --max-model-len 16384: 作用:模型处理的最大上下文长度(包括输入和输出的总和)。 提示:数值越大,占用的 KV Cache 显存越多。根据模型本身激活参数大小而定,如果模型本身激活参数已经很大了此处再设置得很大,显存可能会爆。
--max-num-seqs 128: 允许同时处理的最大请求序列数。 --enable-prefix-caching: 作用:前缀缓存优化。如果多个用户问了相同的前缀(比如同样的系统提示词),vLLM 会缓存这部分的计算结果,极大提升响应速度并节省计算资源。
--gpu-memory-utilization 0.9: 作用:控制 vLLM 占用显卡的比例。默认 0.9 表示占用显卡总显存的 90% 来作为模型权重和 KV Cache 的池子。
--reasoning-parser qwen3: 作用:专门针对推理型模型(如 DeepSeek-R1 系列)的解析器配置。它能帮助 vLLM 更好地处理模型生成的 <think> 标签,确保输出格式符合预期。
|