← Research

AIGC Creator Stack

生图大师的六层知识栈

多数人卡在 Prompt 调参,把"魔法咒语"当成大师能力——这就是为什么 99% 的 AI 出图看起来像 AI 出图。真正的鸿沟在 layer 4-6:摄影/电影的术语库、ComfyUI 工作流系统化、和品味。模型在月度通胀,美学和工作流在通缩——这才是大师的护城河。

如何成为 AIGC 生图大师? 类别创作能力栈 读时~30 min
路线图

从模型层走到品味层

六层知识栈,前三层是入门(模型 / Prompt / 控制),后三层是大师区(美学 / 工作流 / 品味)。第 4 站(美学)是分水岭——大多数业余玩家止步于此,这一步迈过去才进入"用术语跟模型对话"的世界。

大师的分水岭 01 模型层 原理 + 选型 Diffusion 基础 02 Prompt 层 指令工程 结构 > 咒语 03 控制层 CN / IPA / LoRA 结构/风格/概念 04 美学层 摄影/电影 术语库 05 工作流层 ComfyUI 系统化迭代 06 品味层 风格 + 系列 护城河
Roadmap. 横轴是知识栈从底到顶。Layer 1-3 是工具(1-3 个月可学会),Layer 4-6 是创作(以年计)。橙色 Layer 4 是大多数业余玩家止步的位置——跨过去你才进入用术语跟模型对话的世界。

会用笔的人,先得懂笔

不是要你去训模型,是要 know-why。会画的人懂笔的物理性质——硬度、含墨量、笔锋寿命。生图大师懂模型的物理性质——latent space、sampler、CFG、不同 backbone 的偏好。这层不深入,后面三层全是悬空推论。

Diffusion 模型的工作骨架

所有主流生图模型(SD 系、Flux、Midjourney 内部、Imagen 等)本质都是潜空间扩散模型 (latent diffusion):把图像压进 8 倍下采样的潜空间,加噪声到接近纯随机,再训练一个网络从噪声逆向"去噪"出原图46。生成时反过来——从纯噪声出发,在文本 embedding 的引导下逐步去噪,直到一张图浮现 🟢 high

三个你必须能脱口而出的参数:

  • Sampler (采样器):决定每一步噪声怎么算。Euler / DPM++ / UniPC 等是不同的数学解法,差异主要在收敛速度和细节倾向5
  • CFG scale (classifier-free guidance):控制 prompt 的权重——CFG=1 几乎不看 prompt,CFG=20 prompt 死命对齐但图易崩。常用 5-8 区间5
  • Steps:迭代次数。SDXL 30 步一般够,Flux Schnell 4 步,Flux Pro 25 步。多了不一定更好——超过收敛点是浪费算力。

2026 年的模型景观

2026 年生图模型的版图已经碎片化——没有"最强"123。每个模型有它最擅长的场景,你必须按任务选刀🟢 high:

模型最擅长适用场景
Flux 2 Pro真实感、产品摄影电商图、stock 替代、真实人像
Midjourney v8美学、构图意图艺术创作、概念图、海报
Imagen 4文字渲染、版面UI mockup、书封、含文字的广告
SDXL / Flux.1-dev开源可训 LoRA自定义角色、品牌 style、生产管线
GPT Image 2多轮对话编辑需要迭代修改、自然语言指令

这张表的具体名字一年后会变,但分工的结构不会变:有真实感王、有艺术感王、有文字王、有开源王、有编辑王。新模型出来时,你先问它"占哪个生态位",而不是"它比 X 强吗"。

常见错答

"我用最强的模型就能出最好的图。"——错。2026 年没有"最强"。一个商业产品图用 MJ v8 会出来过度风格化的伪艺术品;一个广告海报用 Flux 2 会缺少美学统一感。模型选型本身就是创作决策的一部分

思考一下

问自己:你最近做的 10 张图里,有几张是"恰好用了最适合的模型"?如果你只会用一个模型,layer 1 你还没及格——再强的咒语都是把锤子当万能工具。

Prompt 不是咒语,是结构化指令

2023 年那一套 "masterpiece, best quality, 8k, highly detailed, cinematic lighting" 在 2026 年模型上基本是垃圾 token78。被现代模型当噪声忽略 🟢 high。学过这一套的人是当下最难纠正的——他们以为自己懂 prompt,实际是在写过时咒语。

词序就是权重

扩散模型对 prompt 的注意力不是均匀的。前 10-15 词承担主要语义,前 50 词承担风格和气氛7。主语 + 主要动作必须在最前面,光线和镜头细节其次,背景物件和颜色点缀放最后。这个顺序写错,等于把音量调反——你强调的东西模型听不到。

不同模型,不同方言

2026 年 prompt 是模型相关的,没有一套通用咒语8:

模型偏好的 prompt 风格示例片段
Midjourney v8短句 + 高信息密度 + reference 图cinematic portrait, Saul Leiter, 50mm, rim light
Flux 2自然语言段落,完整描述A woman in a rain-soaked Tokyo alley at midnight, neon reflections...
SDXL / SD3.5结构化关键词 + 权重标记(masterful portrait:1.3), (rembrandt lighting:1.2), shallow DoF
GPT Image 2对话式多轮编辑"那张照片光太硬了,改成黄昏的柔光"
Worked example — 同一意图三种写法

意图:一个穿西装的女性高管在玻璃办公楼里,黄昏光,电影感。

Midjourney v8: cinematic editorial portrait, female executive in glass office at golden hour, 35mm, Roger Deakins lighting, shallow focus --ar 3:2 --style raw

Flux 2: A confident woman in a tailored navy suit stands in a modernist glass-walled office, late afternoon sun streaming through the windows casting long shadows across the polished concrete floor. Shot on a 35mm lens with shallow depth of field, film-like color grading reminiscent of a Roger Deakins composition.

SDXL: (editorial portrait:1.3), business woman, navy suit, glass office building, (golden hour:1.2), 35mm, (rembrandt lighting:1.1), shallow depth of field, film grain, Roger Deakins

差异不只是断句——是每个模型的"母语"。把 Flux 的段落甩给 SDXL,它会丢掉一半信息。

常见错答

"prompt 越长越好,把所有形容词堆上去。"——错。信号密度(signal density)比长度重要。具体词碾压通用词:"pores visible on skin, intricate gold embroidery" 远比 "highly detailed" 有效7

"负向 prompt 越多越保险。"——错。测试显示 negative prompt 在 3-5 个具体词时最佳,超过 5 个模型会过度约束,产出无生气的图甚至放大被排除特征8

控制层三件套:结构 / 风格 / 概念

只靠 prompt 你做不出商业可控的图。专业管线必须叠三件套:ControlNet 管结构,IP-Adapter 管风格,LoRA 管概念131415。三者是正交的——分别动不同的旋钮,叠加使用才是大师的常态 🟢 high

工具控制什么输入典型场景
ControlNet结构 / 构图 / 姿态边缘图 / 深度图 / 姿态骨架 / 线稿商业 layout、产品角度、姿势复刻
IP-Adapter风格 / 色调 / 质感reference 图风格统一、角色一致、品牌色
LoRA概念 / 角色 / 风格基底训练数据集(20-50 张)自定义实体、品牌人物、画家风格
Prompt 语义意图 ControlNet 结构 IP-Adapter 风格 LoRA 概念基底 Diffusion 采样过程 输出
Fig 1. 三件套是 正交 输入,各自控制不同维度。生产管线里它们都接到 diffusion 采样器,合作出图——这是 ComfyUI 节点编程的最小工作图骨架。
Worked example — 商业广告里的三件套

任务:给某眼镜品牌做 12 张系列广告,主角是同一虚构模特,穿同一套着装,在 12 个不同城市背景。

LoRA: 用模特的 30 张参考照训一个角色 LoRA,锁定脸部特征和着装。

ControlNet (OpenPose): 每张图给定不同姿态骨架,确保 12 张姿势有变化又自然。

IP-Adapter: 喂一张 Saul Leiter 风格的街拍参考,统一 12 张的色调和氛围。

Prompt: 自然语言描述每张的城市背景。

没有这一套,12 张图风格各异、模特长得不像同一个人——系列性崩溃。

反证

有人会说"Midjourney 不需要这些,prompt 就够"——确实,对于单张艺术创作,MJ 的内部模型已经吸收了类似 IP-Adapter 的能力(--cref / --sref)。但商业生产需要的不是单张,是系列可控、可复现、可批量——这是开源管线的护城河,2026 年 Midjourney 仍补不上。

常见错答

"会用 ControlNet + LoRA = 大师。"——错。工具组合是必要但不充分。会接管线的人 2026 年已经满地都是;会构思、有审美的人少。三件套是手段,不是目的。

大师的分水岭——摄影 / 电影 / 设计的术语库

这一节是整篇讲稿的核心。前三层都是工具操作,4-6 是创作能力。多数业余玩家止步于 layer 3——他们会接 ComfyUI 管线、会刷 LoRA、会调 CFG,但 prompt 写出来还是 "beautiful lighting, masterpiece"。模型不知道你要什么。

模型在训练时吸收了人类几百年的视觉术语:摄影术语、电影术语、艺术史风格、设计原则910。你脑子里有多少这些术语,你的 prompt 能调用多少 🟢 high。这就是为什么科班出身的摄影师 / 电影人 / 平面设计师在 AIGC 时代有先天优势——他们的术语库已经有 2000+ 词。

必须能脱口而出:摄影术语

  • 焦段(决定空间感):24-35mm 史诗 / 广角,50mm 自然 / 接近人眼,85mm 亲密 / 人像,135mm+ 压缩 / 长焦9
  • 光圈与景深:shallow focus(浅景深 / 焦内焦外分离),deep focus(全景深),bokeh(焦外散景质感)
  • 光线类型:rembrandt lighting(三角光,戏剧化人像),butterfly lighting(蝴蝶光,时尚 / 美容),rim light / hair light(轮廓光,主体与背景分离),god rays(丁达尔光,通过薄雾),golden hour(日落前后的暖光),blue hour(日落后的冷光),overcast(阴天的柔光),hard light vs soft light
  • 镜头特性:anamorphic(变形宽银幕,横向 bokeh 椭圆),fisheye(鱼眼),tilt-shift(移轴 / 微缩感),split-toned(分调)

必须能脱口而出:电影术语

  • 镜头语言:low angle(仰拍 / 权威感),high angle(俯拍 / 弱化),dutch tilt(荷兰角 / 失衡),over-the-shoulder(过肩),POV(主观镜头),wide establishing shot(全景定场)
  • 调色:teal-orange(青橙对比,商业片标配),desaturated(去饱和 / 纪录片感),neon noir(赛博朋克),pastel(粉彩 / Wes Anderson),film grain(胶片颗粒)
  • 胶片型号(每个有独特调性):Kodak Portra 400(肤色暖) / Kodak Tri-X(黑白高对比) / Fuji Velvia(风景饱和) / Cinestill 800T(夜景红 halation)
  • 大气:volumetric fog(体积雾),haze(雾霾感),halation(高光红光晕,夜景胶片质感)

艺术史与设计风格

每个风格在模型里都是一组 embedding 锚点。直接喊名字就能召唤:

  • 绘画:Impressionism (印象派) / Surrealism (超现实) / Bauhaus / Memphis Design / Brutalism / Art Deco / Ukiyo-e (浮世绘)
  • 摄影师:Saul Leiter (彩色街拍 / 反射) / Helmut Newton (高对比时尚黑白) / Gregory Crewdson (戏剧化夜景) / Wolfgang Tillmans (随性肖像) / 荒木经惟 (东亚情色) / Wong Kar-wai 御用 Christopher Doyle (氛围 / 手持)
  • 导演 / 摄影指导:Roger Deakins (光感细腻) / Emmanuel Lubezki (自然光 / 长镜头) / Wes Anderson (对称 / 粉彩) / Denis Villeneuve (极简 / 大景深) / 杜可风 (王家卫御用,色温实验)
  • 插画 / 概念艺术:Studio Ghibli / Moebius (Jean Giraud) / Syd Mead / Beeple / Greg Rutkowski (这个 2024 后已经被很多模型 filter 掉了)
Worked example — 同一意图,业余 vs 大师 prompt

意图:一个孤独的城市夜景。

业余 prompt: A lonely city at night, beautiful, cinematic, 8k, masterpiece, highly detailed

大师 prompt: Empty Tokyo backstreet at 3 AM, neon vending machine glowing in foreground, wet asphalt reflecting red and cyan signage, shot on Cinestill 800T with visible halation, anamorphic 35mm, low angle, Wong Kar-wai mood, volumetric haze, 1990s Tokyo cyberpunk noir aesthetic

差距不在 prompt 工程技巧——差距在大师脑子里有 50 个具体的视觉决策可以做。模型已经学了这 50 个概念,等你召唤。

思考一下

翻一下你最近 30 天写过的 prompt——里面有多少个具体的具名视觉概念(具体的摄影师、具体的胶片、具体的灯光类型)?如果少于 5 个,你卡在 layer 3。这不是 prompt 问题,是术语库问题——解药是看 reference,不是学新 prompt 技巧。

常见错答

"AIGC 时代不用懂摄影,模型替我懂。"——这是 2026 年最危险的认知错误。模型懂,但它不知道你想要哪种"懂"。模型是一个能引用所有摄影术语的助手,但你不开口,它就给你均值——而均值就是那种你一看就知道是 AI 出的烂图。

ComfyUI 节点编程 + 完整 Pipeline

单张 prompt 出图是玩家。大师都是 pipeline 思维——一张专业作品平均迭代 30-100 次,涉及多个工具、多个 seed、多次 inpaint、多轮 upscale。这种迭代要可重现、可调参、可复用——只有节点编程能干这件事。

ComfyUI 是 2026 年的事实标准

跟单提示词工具(Automatic1111 / Forge / Midjourney 网页)的根本差异1112:

对比单提示词工具ComfyUI
交互模型表单 + 按钮可视化节点图
可复用性截图记参数JSON workflow 一键分享
组合自由度固定流水线任意接线 / 分支 / 循环
批量能力有限批处理 + 队列 + API
社区扩展插件1000+ 自定义节点包
定位消费级生产级 / 工程师友好

完整创作 Pipeline 八阶段

1. Reference Pinterest / 电影截图 2. Moodboard 风格固化 3. Prompt 草稿 + 多 seed 探索 4. ControlNet 控形 / 构图 5. 批量生成 seed grid / 筛选 6. Inpaint 修脸 / 修手 / 改局部 7. Upscale 4K + PS 后期 8. Curate 系列编排 / 取舍
Fig 2. 八阶段管线。橙色那一步(curate)最容易被忽略——大多数人在 7 完成就停了,但取舍(从 50 张挑 10 张做成系列)才是大师能力。
Worked example — 一张专业广告作品的实际管线

任务:给某威士忌品牌做一张高端杂志广告。

Reference 阶段:3 小时——Saul Leiter 街拍 + Annie Leibovitz 静物 + 几张 18 世纪荷兰静物画。

Prompt 草稿:4 个版本,每版 16 个 seed,共 64 张候选,挑出 4 张作 base。

ControlNet 调整:用 depth map 控制酒瓶的精确位置和景深。

Inpaint:反复修——酒标变形改 12 次、玻璃反射加 3 次、桌面木纹换 1 次。

Upscale + Photoshop:4K 放大 + Lightroom 调色 + 选区局部锐化。

总耗时:14 小时 / 1 张图。这是专业管线的现实。

常见错答

"AIGC 让生图 5 秒一张。"——是,但 5 秒出的图大部分是素材,不是作品。专业作品总是几十次迭代+后期。把 AIGC 当"产出印刷机"的人,永远进不了大师区——大师把 AIGC 当"画笔",画笔出一根线,画家用一根线决定整张构图。

品味——大师真正的护城河

2026 年模型每月通胀。前 5 层任何人都能在 12 个月内打到基础熟练。护城河只剩一样:品味。品味是看 1 张图 0.3 秒内能说出三层判断的能力——技术层、美学层、系列层🟡 med

三层判断:怎么看一张图"好不好"

  • 技术层:解剖正确(手 / 脸 / 透视)、光影一致(光源方向 / 阴影长度 / 反射逻辑)、构图稳(视觉重心 / 引导线 / 留白)。这层是客观的,可以教。
  • 美学层:有没有视觉重心?有没有情绪?有没有"作者的眼睛"(一个看世界的角度)?这层半主观,但训练得出来。
  • 系列层:这张图单看好,放进 10 张系列里还好吗?反复回到一个母题(童年记忆 / 黑色电影 / 城市夜景 / 性别压抑),才显出作者性。大师的护城河是 consistency,不是 best single shot

品味怎么训练

没有捷径。三件事循环做:

  1. 大量看 reference:每天 30 分钟。摄影师(开始看 Saul Leiter / Helmut Newton / Wolfgang Tillmans / Vivian Maier),画家(Hopper / Vermeer / Caravaggio),电影(Wong Kar-wai / Roger Deakins / Wes Anderson / Denis Villeneuve),广告(Apple / Wieden+Kennedy / Bottega Veneta 视觉)。
  2. 看了之后强迫自己说清:它好在哪?用了什么具体技术?(光线?构图?色调?姿势?气氛?)说不清楚 = 看了等于没看。
  3. 找自己的母题:你最近 3 个月反复回到的视觉主题是什么?如果你说不上来——你还没有作者性,只在"prompt 拼贴"。
Worked example — 怎么解构一张大师作品

看 Saul Leiter 的一张街拍(雨后曼哈顿,模糊的人影穿过红色雨棚倒影)。三层拆:

技术层: 浅景深、85mm 等效焦段、低角度、雨水反射红色光晕(Cinestill 类似 halation 效果)。

美学层: 视觉重心在红色色块,人影是次要;前景虚化做画框;构图用了反射做"画中画"。

系列层: 这是 Leiter 60 年代纽约街拍系列里很多张里的一张——他反复回到玻璃反射、雨棚、模糊人影这几个母题。单张好的人多,有母题的人少。

反证

有人说"AI 时代品味贬值了,因为人人都能出美图"——错。逻辑反过来:模型变强,prompt 的边际效应下降,品味的边际效应上升。当 100 人都能用 Midjourney 出技术正确的图时,谁能选出那张真的好的图、把它放进一个有 story 的系列里,谁就是大师。技术地板抬高 = 品味天花板更稀缺,不是更廉价。

思考一下

问自己两个问题:(1) 你能说出 10 个你长期跟随、知道作品的视觉创作者吗?(摄影师 / 导演 / 画家 / 插画师都算)。(2) 你能说出自己反复回到的 3 个视觉母题吗?——这两个数字大致决定你在 layer 6 的位置。

综合判断

六层叠加,从工具人到作者

直接回答原问题——成为 AIGC 生图大师需要的知识和创作框架,是六层叠加的能力栈

前三层是工程能力(layer 1-3:模型、prompt、控制),1-3 个月可以基础熟练。这一段你学的是工具——diffusion 原理、不同模型生态位、prompt 在不同模型的方言、ControlNet/IP-Adapter/LoRA 三件套。能干到这层,你已经在 95% 的"AIGC 玩家"前面——但你还是 工具人,出的图还是一眼看出是 AI 出的。

第四层是大师的分水岭(layer 4:美学术语库)。这是绝大多数人撞到的天花板——也是科班摄影 / 电影 / 设计出身的人有先天优势的位置。模型已经学了几百年的视觉语言,你 prompt 里能调用多少,直接决定输出能不能跳出"AI 均值美感"。这一步靠的不是技术,是看 reference 的小时数——3-12 个月持续训练。

第五层是系统化(layer 5:ComfyUI + 8 阶段管线)。从单张 prompt 出图升级到工业级 pipeline——批处理、控形、修补、放大、串系列。这是把"会做一张"变成"会做 100 张"的能力。1-2 年逐步形成自己的标准管线。

第六层是终身工程(layer 6:品味)。看 reference、形成母题、训练判断力、建立作者性。这一层不能速成,也不能委外。模型每月通胀,品味是唯一通缩的资产——每年看的 reference、形成的判断力,在 5 年后变成你别人复制不了的东西。

具体学习顺序建议:1-3 个月 layer 1-3(打地基)→ 4-12 个月 layer 4(建术语库)→ 12-24 个月 layer 5(建 pipeline)→ 持续终身 layer 6(训品味)。Layer 6 应该从第一天就开始,不要等学完工具——因为品味的复利最大、时间最长,起步越晚损失越大。

不确定性

关键不确定性

  • 模型景观变化非常快。本讲稿§01 的具体模型对比表写于 2026-05-15。Flux 2 / MJ v8 / Imagen 4 / SDXL 这几个名字 6 个月内必然有新版本上场,可能整个生态位重排。结构(真实感王 / 美学王 / 文字王 / 开源王 / 编辑王)稳定,具体名字会换 🟡 med
  • "大师"标准本身主观。商业摄影大师、概念艺术大师、UI 视觉大师、个人风格艺术家——四种"大师"的能力栈不完全相同。本讲稿偏向广义视觉创作大师,商业偏多——纯艺术方向(NFT / gallery)的人可能 layer 4 和 6 权重更大,layer 5 反而不重要 🟡 med
  • "美学是分水岭"是观点,不是事实。这是本讲稿的核心论断,基于多个 2026 业界评论和本人观察 ——但没有 controlled study 证明"懂摄影术语的人 AIGC 作品质量更高"。可能科班背景的优势比讲稿描述的小,也可能更大 🔴 low
  • "模型在通胀,品味在通缩"是 metaphor,不是 measured fact。它直觉上对,但没人做过严格量化。请按隐喻接收,别当数据。
  • 个人风格的形成路径高度个体化。本讲稿建议的"找母题、看 reference"是 well-trodden path,但有些艺术家是反过来——先做一堆,事后发现自己回到了某些主题。两条路都对。
引用

Sources

  1. Cliprise — Best AI Image Generator 2026: Flux vs Midjourney vs Imagenhttps://www.cliprise.app/learn/comparisons/features/best-ai-image-generator-2026-tested-ranked
  2. Gradually AI — The 9 Best AI Image Generation Models in 2026https://www.gradually.ai/en/ai-image-models/
  3. WaveSpeedAI — Midjourney V8 vs FLUX vs Stable Diffusion: Best AI Image Generator in 2026https://wavespeed.ai/blog/posts/midjourney-v8-vs-flux-vs-sora-best-ai-image-generator-2026/
  4. Stable Diffusion Art — How does Stable Diffusion work?(latent space + diffusion 原理) — https://stable-diffusion-art.com/how-stable-diffusion-work/
  5. Stable Diffusion Art — Stable Diffusion Samplers: A Comprehensive Guidehttps://stable-diffusion-art.com/samplers/
  6. Wikipedia — Diffusion modelhttps://en.wikipedia.org/wiki/Diffusion_model
  7. ImprovePrompt — Mastering Image Generation AI Prompts: The Complete 2026 Guidehttps://www.improveprompt.ai/learn/how-to-improve-image-generation-prompts
  8. Cliprise — AI Prompt Engineering 2026: Prompts That Actually Workhttps://www.cliprise.app/learn/guides/best-practices/ai-prompt-engineering-complete-guide-2026
  9. Travis Nicholson — 100 Cinematic AI Image Prompts (Film, Lighting, Camera Angles)https://travisnicholson.medium.com/100-cinematic-ai-image-prompts-film-lighting-camera-angles-dramatic-scenes-ee907fd6c7fb
  10. Most Sublime — Five photographic lighting prompts that create distinct effectshttps://mostsublime.substack.com/p/five-photographic-lighting-prompts
  11. NVIDIA Developer — How to Build, Run, and Scale High-Quality Creator Workflows in ComfyUIhttps://developer.nvidia.com/blog/how-to-build-run-and-scale-high-quality-creator-workflows-in-comfyui/
  12. IImagined — Advanced ComfyUI Workflows for Professional AI Art: Complete 2026 Guidehttps://iimagined.ai/blog/advanced-comfyui-workflows-professional-ai-art
  13. Shree Bhakta (Medium) — The Ultimate Combo: LoRA + ControlNet + IP-Adapter + Prompthttps://shree6791.medium.com/part-6-the-ultimate-combo-lora-controlnet-ip-adapter-prompt-c938fcb43b27
  14. Stable Diffusion Art — IP-Adapters: All you need to knowhttps://stable-diffusion-art.com/ip-adapter/
  15. Mercity Research — Understanding and Training IP Adapters for Diffusion Modelshttps://www.mercity.ai/blog-post/understanding-and-training-ip-adapters-for-diffusion-models/