定位fastGPT-V4.8.16中关联知识库的简易应用响应慢问题
一、背景
我有一个amd64构架的物理服务器,规格是64c核心、128G内存,磁盘空间充足。上面安装有一个NVIDIA A40 GPU,显存是46G左右。
我在此服务器上安装了Ubuntu 20.04.3 LTS操作系统,然后安装ollama与fastGPT 4.8.16,ollama是二进制形式部署的,fastGPT是通过docker-compose方式部署的,其中ollama拉取了qwen2.5:32b镜像。
直接使用ollama run qwen2.5:32b命令与qwen2.5:32b模型进行会话时,其回复速度很快。我在fastGPT中配置了知识库A与使用此简易应用B,发现通过简易应用B与大模型进行会话时,其响应时间需要10多秒,请问问题出在哪里?
二、问题与现象
在fastGPT页面上输入一个问题,需要等待模型给出了问题的所有回复后,回复内容才会在fastGPT页面上显示,给使用者一种需要等待很久的体验。
三、定位与分析
(1)查看fastGPT容器日志docker logs fastgpt -f时,未发现相关明显异常日志
(2)fastGPT容器使用的容器网络是fastgpt_fastgpt,它是fastgpt部署时创建的bridge类型的容器网络,没有异常。
(3)使用docker stats fastgpt查看容器的监控情况,其中包含网络、CPU、磁盘等监控信息,无明显异常。
(4)经过查询资料发现,fastGPT对接ollama大模型服务引擎以使用大模型时,可以开启,但先前是关闭的。
qwen2.5:32b
大模型的“流式输出”配置项在config.json文件中的defaultConfig->strean,如下所示,已经修改成true。
1 | |
然后执行如下命令重启fastGPT相关容器即可:
1 | |
定位fastGPT-V4.8.16中关联知识库的简易应用响应慢问题
https://jiangsanyin.github.io/2025/08/08/定位fastGPT-V4-8-16中关联知识库的简易应用响应慢问题/