定位fastGPT-V4.8.16中关联知识库的简易应用响应慢问题

一、背景

我有一个amd64构架的物理服务器，规格是64c核心、128G内存，磁盘空间充足。上面安装有一个NVIDIA A40 GPU，显存是46G左右。

我在此服务器上安装了Ubuntu 20.04.3 LTS操作系统，然后安装ollama与fastGPT 4.8.16，ollama是二进制形式部署的，fastGPT是通过docker-compose方式部署的，其中ollama拉取了qwen2.5:32b镜像。

直接使用ollama run qwen2.5:32b命令与qwen2.5:32b模型进行会话时，其回复速度很快。我在fastGPT中配置了知识库A与使用此简易应用B，发现通过简易应用B与大模型进行会话时，其响应时间需要10多秒，请问问题出在哪里？

二、问题与现象

在fastGPT页面上输入一个问题，需要等待模型给出了问题的所有回复后，回复内容才会在fastGPT页面上显示，给使用者一种需要等待很久的体验。

三、定位与分析

（1）查看fastGPT容器日志docker logs fastgpt -f时，未发现相关明显异常日志

（2）fastGPT容器使用的容器网络是fastgpt_fastgpt，它是fastgpt部署时创建的bridge类型的容器网络，没有异常。

（3）使用docker stats fastgpt查看容器的监控情况，其中包含网络、CPU、磁盘等监控信息，无明显异常。

（4）经过查询资料发现，fastGPT对接ollama大模型服务引擎以使用大模型时，可以开启，但先前是关闭的。

qwen2.5:32b 大模型的“流式输出”配置项在config.json文件中的defaultConfig->strean，如下所示，已经修改成true。

...
  "llmModels": [
    {
      "model": "qwen2.5:32b",
      "name": "qwen2.5:32b",
      "avatar": "/imgs/model/openai.svg",
      "maxContext": 128000,
      "maxResponse": 4000,
      "quoteMaxToken": 100000,
      "maxTemperature": 1.2,
      "charsPointsPrice": 0,
      "censor": false,
      "vision": false,
      "datasetProcess": true,
      "usedInClassify": true,
      "usedInExtractFields": true,
      "usedInToolCall": true,
      "usedInQueryExtension": true,
      "toolChoice": false,
      "functionCall": false,
      "customCQPrompt": "",
      "customExtractPrompt": "",
      "defaultSystemChatPrompt": "",
      "defaultConfig": {
        "temperature": 1,
        "stream": true
      },
      "fieldMap": {
        "max_tokens": "max_completion_tokens"
      }
    },
...

然后执行如下命令重启fastGPT相关容器即可：

1	`root@controller01:~/miniconda3/envs/self-llm/fastgpt# docker-compose up -d --force-recreate`

AIGC

#AIGC

定位fastGPT-V4.8.16中关联知识库的简易应用响应慢问题

https://jiangsanyin.github.io/2025/08/08/定位fastGPT-V4-8-16中关联知识库的简易应用响应慢问题/

作者

sanyinjiang

发布于

2025年8月8日

许可协议

开源版coze本地部署与试用上一篇

线性代数-10-向量概念与运算下一篇