定位fastGPT-V4.8.16中关联知识库的简易应用响应慢问题

一、背景

我有一个amd64构架的物理服务器,规格是64c核心、128G内存,磁盘空间充足。上面安装有一个NVIDIA A40 GPU,显存是46G左右。

我在此服务器上安装了Ubuntu 20.04.3 LTS操作系统,然后安装ollama与fastGPT 4.8.16,ollama是二进制形式部署的,fastGPT是通过docker-compose方式部署的,其中ollama拉取了qwen2.5:32b镜像。

直接使用ollama run qwen2.5:32b命令与qwen2.5:32b模型进行会话时,其回复速度很快。我在fastGPT中配置了知识库A与使用此简易应用B,发现通过简易应用B与大模型进行会话时,其响应时间需要10多秒,请问问题出在哪里?

二、问题与现象

image-20250808145621178

在fastGPT页面上输入一个问题,需要等待模型给出了问题的所有回复后,回复内容才会在fastGPT页面上显示,给使用者一种需要等待很久的体验。

三、定位与分析

(1)查看fastGPT容器日志docker logs fastgpt -f时,未发现相关明显异常日志

(2)fastGPT容器使用的容器网络是fastgpt_fastgpt,它是fastgpt部署时创建的bridge类型的容器网络,没有异常。

(3)使用docker stats fastgpt查看容器的监控情况,其中包含网络、CPU、磁盘等监控信息,无明显异常。

(4)经过查询资料发现,fastGPT对接ollama大模型服务引擎以使用大模型时,可以开启,但先前是关闭的。

qwen2.5:32b 大模型的“流式输出”配置项在config.json文件中的defaultConfig->strean,如下所示,已经修改成true。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
...
"llmModels": [
{
"model": "qwen2.5:32b",
"name": "qwen2.5:32b",
"avatar": "/imgs/model/openai.svg",
"maxContext": 128000,
"maxResponse": 4000,
"quoteMaxToken": 100000,
"maxTemperature": 1.2,
"charsPointsPrice": 0,
"censor": false,
"vision": false,
"datasetProcess": true,
"usedInClassify": true,
"usedInExtractFields": true,
"usedInToolCall": true,
"usedInQueryExtension": true,
"toolChoice": false,
"functionCall": false,
"customCQPrompt": "",
"customExtractPrompt": "",
"defaultSystemChatPrompt": "",
"defaultConfig": {
"temperature": 1,
"stream": true
},
"fieldMap": {
"max_tokens": "max_completion_tokens"
}
},
...

然后执行如下命令重启fastGPT相关容器即可:

1
root@controller01:~/miniconda3/envs/self-llm/fastgpt# docker-compose up -d --force-recreate

定位fastGPT-V4.8.16中关联知识库的简易应用响应慢问题
https://jiangsanyin.github.io/2025/08/08/定位fastGPT-V4-8-16中关联知识库的简易应用响应慢问题/
作者
sanyinjiang
发布于
2025年8月8日
许可协议