百炼平台-智能多模态识别应用

相关说明:

(1)本文通过创建一个知识库,其中有3个文件:PyTorch学习教程.pdf、2019年各厂商手机出货量.docx、各种类型案件数.docx。后两个文件各有一张图片,第一个文件中有图有文字描述。

(2)创建一个智能体应用,使用了“通义千问VL-Max-Latest”模型。如果不开启知识库“多模态回复增强”功能,则图表解析可能不能正常工作。开启后,增加了正常工作的功能性,但仍可能出现问题如解析不准确。

具体过程如下。

一、创建知识库

image-20250416223516232
image-20250416223612762

其余默认。

image-20250416223655986
image-20250416230947835

二、创建智能体应用

image-20250416223739268
image-20250416231040349

三、确证效果

如果未开启“多模态视觉增强”,RAG未能做出回答

image-20250416231221485

开启“多模态视觉增强”,RAG回答正确

image-20250416231256270

其中,图1的内容如下:

image-20250416231322652

再次检验

但此智能体应用并不能百分百正确解析与回复图表相关问题,比如回复关于“2019年全球各品牌手机出货量,哪个品牌的手机出货量最多”问题时,未能正确解析相关图表内容(虽然最终回复结果是正确的,但解析有错)。解析效果如下:

image-20250416231618064

其实,2019年全球各品牌手机出货量相关统计数据如下:

image-20250416231458612

百炼平台-智能多模态识别应用
https://jiangsanyin.github.io/2025/04/16/百炼平台-智能多模态识别应用/
作者
sanyinjiang
发布于
2025年4月16日
许可协议