HappyFigure-Chp02-AI绘图核心技法与工具链
一、章节脉络
本章的目标在于快速理解并上手以 Nano-Banana Pro 为代表(但有提到阿里云开发的Qwen-image-2.0模型及使用)的核心模型,并补齐在完整科研绘图流程中,生成前准备与生成后处理阶段可能会用到的关键工具,为后续学习方法论与动手实践做好铺垫。
细化点,本章主要内容是如下:
- 了解 Nano-Banana Pro 的多种官方及第三方接入方式
- 掌握 Gemini 网页端使用 Pro 模型的两步法操作
- 区分文生图与图生图的核心功能,理解"伪代码"提示词与"草图骨架"思维
- 构建一套完整且顺手的科研绘图上下游工具链(包括前处理工具、后处理工具)
二、02章节的主要内容
2.1 模型接入渠道与方式
本章节主要探讨谷歌开发的Nano-Banana Pro模型(具体全名是:gemini-3-pro-image-preview)的多种使用渠道与方式,并提到了国内阿里云开发的Qwen-image-2.0模型与使用,说明国内外模型在生成图片时可相互替换性及使用差别。
下图展示了国外国内绘图大模型的典型代表,以及渠道与使用方式。
2.1.1 Nano-Banana Pro 的接入
2.1.1.1 官方渠道
2.1.1.1.1 三种典型使用方式
官方渠道内 Nano-Banana Pro 三种典型使用方式有3种:官方 API、Google AI Studio、Gemini 网页端。它们的优缺点及适用对象如下表所示。
| 使用方式 | 优点 | 缺点 | 适用对象 |
|---|---|---|---|
| 官方 API | • 版本更新最及时,规则最清晰; • 支持批量化生成; • 易于集成到 Python 脚本或科研工作流中 | • 需要具备一定的编程基础; • 需要配置 Google Cloud 计费账户。 | 希望构建可复用工作流或批量处理图像的科研人员 |
| Google AI Studio | • 无需写代码即可调整参数(尺寸、分辨率等); • 适合探索模型能力边界和调试复杂提示词 | • 并非免费,底层依赖 API 计费; • 需要配置计费账户 | 不想写代码,但需要比网页端更丰富的参数控制权 |
| Gemini 网页端 | • 学习成本最低,自然语言对话即可生成; • 交互简单直观 | • 可控性相对有限; • 参数精细度不如前两者; • 受限于订阅等级的每日额度 | 希望以最低学习成本快速体验的用户 |
2.1.1.1.2 注意事项:
- 使用官方 API方式与Google AI
Studio方式前,需要先访问其Google AI
Studio官网
https://aistudio.google.com/,注册登录成功后创建API key。此外,还需要充值以换取点数以其中包含的AIGC功能。 - 使用Gemini 网页端方式时,未充值用户在生成图片时只能使用 Nano Banana 2(有额度或点数限制,20 张图片/24H内),可以重做功能但仍然是使用 Nano Banana 2 模型,无法切换到 Nano Banana Pro 模型,付费订购“Google AI Pro”级别会员及以上才能使用Nano Banana Pro 模型。
2.1.1.1.3 Nano Banana 2/Pro:
它们是谷歌在 2025 至 2026 年间推出的这两个图像生成与编辑大模型,在底层架构、性能定位以及核心应用场景上有着明显的差异。简单来说,一个是专业旗舰级(Pro),一个是速度与性价比拉满的次世代全能型(Flash)。
具体核心区别如下:
底层架构与产品定位的区别
- Nano Banana Pro
- 底层内核:基于 Gemini 3 Pro Image。
- 定位:主打影音工作室级别的绝对精度与控制力(Studio-quality)。
- 适用人群:深度设计师、专业广告创意人员、商业级出图工作流。
- Nano Banana 2
- 底层内核:基于 Gemini 3.1 Flash Image(2026年2月最新推出)。
- 定位:将 Pro 的高级推理和世界知识引入 Flash 轻量化模型中,主打极致速度与极高性价比。
- 适用人群:普通创作者、需要高并发调用的开发者、效率至上的快节奏内容生产。
- Nano Banana Pro
心功能与技术指标的区别
特性 / 能力 Nano Banana Pro (Gemini 3 Pro) Nano Banana 2 (Gemini 3.1 Flash) 生成速度 较慢,追求极致的单张画质细腻度 极快,适合大规模高频出图与快速迭代 上下文窗口 65,536 Tokens 131,072 Tokens(翻倍,可容纳更多参考信息) 多模态输入能力 支持 文本、图像 混合输入 支持 文本、图像、PDF,并新增支持 视频 (Video) 输入 视频深度理解 ❌ 不支持 精品亮点:可直接解析视频中的主体、动作和视觉语境来生成 context-aware(上下文相关)的图像、长图表或精美视频缩略图。 图片融合上限 适合复杂的专业多图融合与图层编辑 极快地处理多达 14 张参考图或 5 个人脸的主体一致性融合。 文本与图表生成 强项。擅长在海报、复杂的长 recipe 或多层级 Infographics(信息图表)中渲染精细且完全合规的多国文字。 同样具备极强的文字生成与本地化翻译能力,但在超复杂学术/商业图表上,Pro 的物理细节控制会更稳一些。 总结与选型建议
- 选 Nano Banana Pro 的场景:如果做海报设计、产品包装、复杂的多轮对话式局部重绘(Inpaint/Outpaint),且对细节、画质和长段文字渲染有极其苛刻的印刷级要求,建议在 Gemini App 中通过三点菜单选择“Redo with Pro”或者使用 AI Studio 调用 Pro。
- 选 Nano Banana 2 的场景:如果追求秒出图、想开发个人应用(调用 API 便宜且快)、或者想要丢一段视频让 AI 直接帮忙生成相关的海报或缩略图,Nano Banana 2 是目前综合体验最爽的绝对首选。
2.1.1.1.4 使用及效果
- 官方API
1 | |
- Google AI Studio
1 | |
- Gemini 网页端
跟Google AI Studio中试用时使用的是相同的英文提示词。此处模型也能理解中文提示词,但建议配英文关键词效果更好。
2.1.1.2 第三方渠道
许多人受限于网络环境稳定性、跨境支付门槛或官方配额策略。针对这一需求,市场上衍生出了多种第三方解决方案(方式)。它们在易用性和成本上各有侧重,但也伴随着不同程度的风险。
| 使用方式 | 优点 | 缺点 | 适用对象 | 典型示例 |
|---|---|---|---|---|
| 集成化第三方平台 | • 无需配置 API Key 或网络环境; • 界面友好,操作简单 | • "黑盒"调用,参数不可见; • 提示词长度常受限,不利于复杂科研绘图 | 受网络或支付限制,或仅需快速生成简单素材的用户 | Lovart、Higgsfield 等在线设计工具 |
| 第三方中转 API | • 代码逻辑大多与官方一致; • 单价通常较低 | • 稳定性差,完全依赖服务商; • 存在严重的数据隐私泄露风险 | 有批量化需求且希望降低成本或简化支付流程,且数据非敏感的科研人员 | 各类 API 分发商/中转服务 |
此处我暂时没有试用。
2.1.2 Qwen-image-2.0 的接入
由阿里云通义团队在2026年初发布。用户可以在Qwen Studio平台免费体验(目前基本免费,有速率限制),也可以在百炼平台获取API key后通过程序方式调用API来生成图片(此时调用特定模型可以享受免费的检验额度或需要付费)。 这两个平台,前者是面向普通用户的 AI 助手产品(C端网页/App),后者是面向开发者/企业的 AI PaaS 平台(B端),但两者底层共用同一套 Qwen 大模型能力。
在Qwen Studio中使用时,先选择模型,再点击输入窗口中的+号,然后选择“生成图像”功能。我试了让Qwen3.7-Max生成一张定性示意图,跟Gemini网页端中的Nano Banana 2效果差不多。
2.2 Nano-Banana Pro 核心功能解构
与以审美驱动为核心的图像生成模型不同,Nano-Banana Pro 在科研场景中的定位,更接近一位能够理解结构、约束和因果关系的工程协作者。它并不追求自由发挥,而是擅长在明确规则下完成视觉构建。
这也决定了使用它的核心方式并不复杂。你不需要成为提示词专家,只需要掌握两种足以覆盖绝大多数科研绘图场景的对话模式:结构化生成的文生图,以及引入视觉约束的图生图。
2.2.1 文生图
像写伪代码一样写提示词
不建议使用散文式的自然语言描述,而是推荐采用一种模块化、分层级的指令组织方式。用户可以显式地向模型声明绘图的关键约束条件,如整体风格、空间布局、拓扑关系。
整体风格:明确图像更接近哪一类期刊的视觉审美标准,例如 “CVPR 偏好的扁平化风格”“ Nature 常见的拟真风格”。
空间布局:定义画面的物理分区与层级关系,例如“左侧为输入层,中间为处理层,右侧为输出层”。
拓扑关系:明确组件之间的连接方式与方向,例如“箭头 A 从区域 1 指向区域 2,并形成闭环结构”。
Nano-Banana Pro与Nano-Banana 2能理解中文提示词,但更建议优先使用英文提示词撰写核心绘图指令。如有将图中文字或说明转为中文的需求,可在后期编辑阶段统一处理。
参数化控色
在 Nano-Banana Pro 中,可以(建议)直接在提示词中指定 HEX 色值,例如
Primary Color: Azure Blue #E1F5FE。模型能够准确解析这些颜色参数,从而生成符合主流顶级期刊审美的图像,有效规避常见的“塑料感”问题。
2.2.2 图生图
在有需要时,同、可以引入参考图来生成目标图片。具体而言,参考图主要承担两种核心功能:提供空间拓扑的结构骨架,以及定义视觉特征的目标风格。
草图即骨架(结构参考)
不需要具备专业的绘画能力。无论是用鼠标在画图工具中随手勾勒的线条,在 PPT 中粗略摆放的框架,还是在纸上快速画下的草图,只要其拓扑结构是正确的,即明确了谁与谁相邻、谁指向谁,Nano-Banana Pro 就可以将其视为整个画面的“骨架”。
使用参考图,再加上配套的提示词,一般可以获得期望的效果。
风格迁移与对齐(风格迁移)
除了结构参考,图生图模式还可以用于风格迁移。当你在阅读文献时,遇到配色、线条与整体质感都高度符合目标期刊风格的插图,可以将其作为风格上的参考图提供给模型。在这种情况下,模型会主动放弃默认的渲染习惯,转而对齐参考图的视觉特征,例如线条粗细、配色方案与整体的扁平化程度,从而快速生成在视觉语言上与目标期刊高度一致的科研插图。
同样地,也需要使用配置的提示词。
2.3 辅助工具推荐
2.3.1 前处理工具
草图绘制工具
对于大多数科研人员,草图绘制工具并不需要很复杂。无论是操作系统自带的画图软件,PowerPoint 中最基础的形状与箭头工具,还是 Excalidraw、draw.io 这类轻量级流程或示意图工具,都足以承担这一阶段的任务。在很多情况下,甚至只需要一张 A4 纸和一支笔,就能完成对结构关系的初步表达。
配色提取工具
用来获取 HEX 色值,浏览器自带或直接搜索来的配色提取工具即可。
2.3.2 后处理工具
去水印工具
开源项目 gemini-watermark-remover 通过反向 Alpha 混合算法对透明度进行还原,能够在不引入额外视觉噪声的前提下恢复图像的原始结构。 这一步的目标,是尽可能获得一张干净、稳定的基础素材,为后续处理打好基础。
高清放大工具
在完成去水印之后,常见的下一步是使用高清放大工具。典型的解决方案是部署 Real-ESRGAN 系列模型(支持本地便携版运行)。这一处理的意义在于为后续的矢量化与可编辑化提供更高质量的输入。更清晰的边界与细节,有助于提升线条识别、形状分割与文字保留的效果,从而在后续编辑过程中降低整体修改成本。
矢量化与可编辑化工具
如果要对插图进行细节层面的再调整,例如文字标注的位置微调、线条粗细的统一、局部逻辑关系的修正,以及与整篇文稿中其他图形元素的整体协调。下表整理了 AI 生成图像后的编辑与矢量化方案。
| 方案类型 | 典型工具/代表 | 主要功能与应用场景 |
|---|---|---|
| 在线矢量化工具 | Vectorizer 等 | 快速格式转换:能将位图转化为 SVG 等通用矢量格式,便于后续在各类软件中进行基础编辑 |
| 专业设计软件 | Adobe Illustrator | 精细化描摹:利用其内置的"图像描摹"功能,提供对矢量化过程参数(如阈值、路径拟合度)的精细控制能力 |
| 结构化研究项目 | Edit-Banana | 图表语义还原:尝试将静态图表转化为结构化、可编辑的DrawIO 文件形式 |
| 通用绘图/重绘 | Figma, Visio | 人工参考复刻:将生成图作为底图参考,手动重绘结构与布局,适合对逻辑严密性要求极高的场景 |
| 代码辅助绘制 | Matplotlib | 完全可控化:针对规则性较强的图形结构,参考生成结果编写绘图代码,从而获得参数完全可控的矢量素材 |