GPT-Image-2 生图提示词怎么写?拆一套结构化框架

刷到 @Berryxia.AI 发的一套 GPT-Image-2 提示词模板,读完觉得思路挺清晰,就顺手拆了一下。

问题出在哪

大多数人给 GPT-Image-2 的指令长这样:

帮我画一张科技感的海报,要有AI元素

AI 不是听不懂,是你没说的部分它会自己脑补。画幅比例、主体位置、色调、文字排版,全扔给随机性。出来的东西可能是任何,但大概率不是你想要的。

模板的拆法

@Berryxia.AI 把提示词拆成五个模块,每个解决一个具体的失控点:

画幅和用途先锁输出形态,不然 16:9 和 9:16 差很远。核心主体要定位置、占比、情绪,不能光说「画一个人」。视觉隐喻用具象元素表达抽象概念,比如用分叉光线象征选择,比「画一个路口」有传播力得多。画面风格给预设(Apple 极简、人文科技、像素风),快速定调。文字系统管主副标题和关键词,别让 AI 自己排版。

还有一组限制条件挺实用:不要二维码、不要水印、不要错误中文、不要廉价广告风。这些「不要」比「要」更有用,帮 AI 排掉大量低质量路径。

能力地图:六个模块

光有模板不够,得知道模型能做到什么程度。@Berryxia.AI 画了一张能力地图,把 GPT-Image-2 的核心能力拆成六块。

文字理解是起点。模型得先读懂你想要什么,关键词提取、意图识别、多指令融合,这些决定了你能不能在一段话里塞进多个约束而不互相打架。版式控制管排版:网格、层级、视线引导。很多人忽略这个,但商业视觉的核心就是排版,信息优先级得说清楚。中文渲染是最容易翻车的环节,GPT-Image-2 做了专门优化,但字体风格和排版意图还是得在提示词里写明白。画面风格管美学调性,从极简科技到博物馆厚重质感,关键是统一,别混搭。光影控制被严重低估,同一个主体,聚光灯和柔光完全是两个故事。商业应用是落地层,生成的图能不能直接用在产品页或社交封面上,取决于你有没有给商业场景的约束。

底层有八个系统能力撑着:多模态语义理解、知识推理、美学评估、安全合规这些。不是用户直接调的接口,但决定了每个模块的上限。

隐喻是关键差异

大多数人只会描述「有什么」,但好的视觉设计要表达「意味着什么」。

普通写法:画一个人站在路口。隐喻写法:用分叉的光线路径象征选择,用渐变蓝紫色调象征不确定性。前者得到一张插画,后者得到一个能传播的视觉概念。

我做了一个可复用模板

把这套框架转成了 meta-prompt,填入主题和偏好就能自动生成结构化提示词。每个视觉参数都有预设选项和自定义输入两种模式,快出图选预设,精细控就自己填。

覆盖的维度:主题和主体、情绪价值、视觉隐喻映射、风格和色调、画幅和用途、文字系统。

模板在站内提示词板块:GPT-Image-2 结构化生图提示词生成器

结构比灵感靠谱

GPT-Image-2 的多模态能力确实强,但它终究在解码你的文字意图。信息越结构化,输出越可控。

@Berryxia.AI 原话:「结构化越清晰,输出的质量越好」。适用于所有 LLM 交互,不只是生图。


来源:@Berryxia.AI 在 X 平台分享的 GPT-Image-2 生图提示词教程及能力地图。