GPT-Image-2 生图提示词怎么写？拆一套结构化框架

刷到 @Berryxia.AI 发的一套 GPT-Image-2 提示词模板，读完觉得思路挺清晰，就顺手拆了一下。

问题出在哪

大多数人给 GPT-Image-2 的指令长这样：

帮我画一张科技感的海报，要有AI元素

AI 不是听不懂，是你没说的部分它会自己脑补。画幅比例、主体位置、色调、文字排版，全扔给随机性。出来的东西可能是任何，但大概率不是你想要的。

模板的拆法

@Berryxia.AI 把提示词拆成五个模块，每个解决一个具体的失控点：

画幅和用途先锁输出形态，不然 16:9 和 9:16 差很远。核心主体要定位置、占比、情绪，不能光说「画一个人」。视觉隐喻用具象元素表达抽象概念，比如用分叉光线象征选择，比「画一个路口」有传播力得多。画面风格给预设（Apple 极简、人文科技、像素风），快速定调。文字系统管主副标题和关键词，别让 AI 自己排版。

还有一组限制条件挺实用：不要二维码、不要水印、不要错误中文、不要廉价广告风。这些「不要」比「要」更有用，帮 AI 排掉大量低质量路径。

能力地图：六个模块

光有模板不够，得知道模型能做到什么程度。@Berryxia.AI 画了一张能力地图，把 GPT-Image-2 的核心能力拆成六块。

文字理解是起点。模型得先读懂你想要什么，关键词提取、意图识别、多指令融合，这些决定了你能不能在一段话里塞进多个约束而不互相打架。版式控制管排版：网格、层级、视线引导。很多人忽略这个，但商业视觉的核心就是排版，信息优先级得说清楚。中文渲染是最容易翻车的环节，GPT-Image-2 做了专门优化，但字体风格和排版意图还是得在提示词里写明白。画面风格管美学调性，从极简科技到博物馆厚重质感，关键是统一，别混搭。光影控制被严重低估，同一个主体，聚光灯和柔光完全是两个故事。商业应用是落地层，生成的图能不能直接用在产品页或社交封面上，取决于你有没有给商业场景的约束。

底层有八个系统能力撑着：多模态语义理解、知识推理、美学评估、安全合规这些。不是用户直接调的接口，但决定了每个模块的上限。

隐喻是关键差异

大多数人只会描述「有什么」，但好的视觉设计要表达「意味着什么」。

普通写法：画一个人站在路口。隐喻写法：用分叉的光线路径象征选择，用渐变蓝紫色调象征不确定性。前者得到一张插画，后者得到一个能传播的视觉概念。

我做了一个可复用模板

把这套框架转成了 meta-prompt，填入主题和偏好就能自动生成结构化提示词。每个视觉参数都有预设选项和自定义输入两种模式，快出图选预设，精细控就自己填。

覆盖的维度：主题和主体、情绪价值、视觉隐喻映射、风格和色调、画幅和用途、文字系统。

模板在站内提示词板块：GPT-Image-2 结构化生图提示词生成器

结构比灵感靠谱

GPT-Image-2 的多模态能力确实强，但它终究在解码你的文字意图。信息越结构化，输出越可控。

@Berryxia.AI 原话：「结构化越清晰，输出的质量越好」。适用于所有 LLM 交互，不只是生图。

来源：@Berryxia.AI 在 X 平台分享的 GPT-Image-2 生图提示词教程及能力地图。

GPT-Image-2 生图提示词怎么写？拆一套结构化框架