AIGC Creator Stack
生图大师的六层知识栈
多数人卡在 Prompt 调参,把"魔法咒语"当成大师能力——这就是为什么 99% 的 AI 出图看起来像 AI 出图。真正的鸿沟在 layer 4-6:摄影/电影的术语库、ComfyUI 工作流系统化、和品味。模型在月度通胀,美学和工作流在通缩——这才是大师的护城河。
从模型层走到品味层
六层知识栈,前三层是入门(模型 / Prompt / 控制),后三层是大师区(美学 / 工作流 / 品味)。第 4 站(美学)是分水岭——大多数业余玩家止步于此,这一步迈过去才进入"用术语跟模型对话"的世界。
会用笔的人,先得懂笔
不是要你去训模型,是要 know-why。会画的人懂笔的物理性质——硬度、含墨量、笔锋寿命。生图大师懂模型的物理性质——latent space、sampler、CFG、不同 backbone 的偏好。这层不深入,后面三层全是悬空推论。
Diffusion 模型的工作骨架
所有主流生图模型(SD 系、Flux、Midjourney 内部、Imagen 等)本质都是潜空间扩散模型 (latent diffusion):把图像压进 8 倍下采样的潜空间,加噪声到接近纯随机,再训练一个网络从噪声逆向"去噪"出原图46。生成时反过来——从纯噪声出发,在文本 embedding 的引导下逐步去噪,直到一张图浮现 🟢 high。
三个你必须能脱口而出的参数:
- Sampler (采样器):决定每一步噪声怎么算。Euler / DPM++ / UniPC 等是不同的数学解法,差异主要在收敛速度和细节倾向5。
- CFG scale (classifier-free guidance):控制 prompt 的权重——CFG=1 几乎不看 prompt,CFG=20 prompt 死命对齐但图易崩。常用 5-8 区间5。
- Steps:迭代次数。SDXL 30 步一般够,Flux Schnell 4 步,Flux Pro 25 步。多了不一定更好——超过收敛点是浪费算力。
2026 年的模型景观
2026 年生图模型的版图已经碎片化——没有"最强"123。每个模型有它最擅长的场景,你必须按任务选刀🟢 high:
| 模型 | 最擅长 | 适用场景 |
|---|---|---|
| Flux 2 Pro | 真实感、产品摄影 | 电商图、stock 替代、真实人像 |
| Midjourney v8 | 美学、构图意图 | 艺术创作、概念图、海报 |
| Imagen 4 | 文字渲染、版面 | UI mockup、书封、含文字的广告 |
| SDXL / Flux.1-dev | 开源可训 LoRA | 自定义角色、品牌 style、生产管线 |
| GPT Image 2 | 多轮对话编辑 | 需要迭代修改、自然语言指令 |
这张表的具体名字一年后会变,但分工的结构不会变:有真实感王、有艺术感王、有文字王、有开源王、有编辑王。新模型出来时,你先问它"占哪个生态位",而不是"它比 X 强吗"。
"我用最强的模型就能出最好的图。"——错。2026 年没有"最强"。一个商业产品图用 MJ v8 会出来过度风格化的伪艺术品;一个广告海报用 Flux 2 会缺少美学统一感。模型选型本身就是创作决策的一部分。
问自己:你最近做的 10 张图里,有几张是"恰好用了最适合的模型"?如果你只会用一个模型,layer 1 你还没及格——再强的咒语都是把锤子当万能工具。
Prompt 不是咒语,是结构化指令
2023 年那一套 "masterpiece, best quality, 8k, highly detailed, cinematic lighting" 在 2026 年模型上基本是垃圾 token78。被现代模型当噪声忽略 🟢 high。学过这一套的人是当下最难纠正的——他们以为自己懂 prompt,实际是在写过时咒语。
词序就是权重
扩散模型对 prompt 的注意力不是均匀的。前 10-15 词承担主要语义,前 50 词承担风格和气氛7。主语 + 主要动作必须在最前面,光线和镜头细节其次,背景物件和颜色点缀放最后。这个顺序写错,等于把音量调反——你强调的东西模型听不到。
不同模型,不同方言
2026 年 prompt 是模型相关的,没有一套通用咒语8:
| 模型 | 偏好的 prompt 风格 | 示例片段 |
|---|---|---|
| Midjourney v8 | 短句 + 高信息密度 + reference 图 | cinematic portrait, Saul Leiter, 50mm, rim light |
| Flux 2 | 自然语言段落,完整描述 | A woman in a rain-soaked Tokyo alley at midnight, neon reflections... |
| SDXL / SD3.5 | 结构化关键词 + 权重标记 | (masterful portrait:1.3), (rembrandt lighting:1.2), shallow DoF |
| GPT Image 2 | 对话式多轮编辑 | "那张照片光太硬了,改成黄昏的柔光" |
意图:一个穿西装的女性高管在玻璃办公楼里,黄昏光,电影感。
Midjourney v8: cinematic editorial portrait, female executive in glass office at golden hour, 35mm, Roger Deakins lighting, shallow focus --ar 3:2 --style raw
Flux 2: A confident woman in a tailored navy suit stands in a modernist glass-walled office, late afternoon sun streaming through the windows casting long shadows across the polished concrete floor. Shot on a 35mm lens with shallow depth of field, film-like color grading reminiscent of a Roger Deakins composition.
SDXL: (editorial portrait:1.3), business woman, navy suit, glass office building, (golden hour:1.2), 35mm, (rembrandt lighting:1.1), shallow depth of field, film grain, Roger Deakins
差异不只是断句——是每个模型的"母语"。把 Flux 的段落甩给 SDXL,它会丢掉一半信息。
控制层三件套:结构 / 风格 / 概念
只靠 prompt 你做不出商业可控的图。专业管线必须叠三件套:ControlNet 管结构,IP-Adapter 管风格,LoRA 管概念131415。三者是正交的——分别动不同的旋钮,叠加使用才是大师的常态 🟢 high。
| 工具 | 控制什么 | 输入 | 典型场景 |
|---|---|---|---|
| ControlNet | 结构 / 构图 / 姿态 | 边缘图 / 深度图 / 姿态骨架 / 线稿 | 商业 layout、产品角度、姿势复刻 |
| IP-Adapter | 风格 / 色调 / 质感 | reference 图 | 风格统一、角色一致、品牌色 |
| LoRA | 概念 / 角色 / 风格基底 | 训练数据集(20-50 张) | 自定义实体、品牌人物、画家风格 |
任务:给某眼镜品牌做 12 张系列广告,主角是同一虚构模特,穿同一套着装,在 12 个不同城市背景。
LoRA: 用模特的 30 张参考照训一个角色 LoRA,锁定脸部特征和着装。
ControlNet (OpenPose): 每张图给定不同姿态骨架,确保 12 张姿势有变化又自然。
IP-Adapter: 喂一张 Saul Leiter 风格的街拍参考,统一 12 张的色调和氛围。
Prompt: 自然语言描述每张的城市背景。
没有这一套,12 张图风格各异、模特长得不像同一个人——系列性崩溃。
有人会说"Midjourney 不需要这些,prompt 就够"——确实,对于单张艺术创作,MJ 的内部模型已经吸收了类似 IP-Adapter 的能力(--cref / --sref)。但商业生产需要的不是单张,是系列可控、可复现、可批量——这是开源管线的护城河,2026 年 Midjourney 仍补不上。
"会用 ControlNet + LoRA = 大师。"——错。工具组合是必要但不充分。会接管线的人 2026 年已经满地都是;会构思、有审美的人少。三件套是手段,不是目的。
大师的分水岭——摄影 / 电影 / 设计的术语库
这一节是整篇讲稿的核心。前三层都是工具操作,4-6 是创作能力。多数业余玩家止步于 layer 3——他们会接 ComfyUI 管线、会刷 LoRA、会调 CFG,但 prompt 写出来还是 "beautiful lighting, masterpiece"。模型不知道你要什么。
模型在训练时吸收了人类几百年的视觉术语:摄影术语、电影术语、艺术史风格、设计原则910。你脑子里有多少这些术语,你的 prompt 能调用多少 🟢 high。这就是为什么科班出身的摄影师 / 电影人 / 平面设计师在 AIGC 时代有先天优势——他们的术语库已经有 2000+ 词。
必须能脱口而出:摄影术语
- 焦段(决定空间感):24-35mm 史诗 / 广角,50mm 自然 / 接近人眼,85mm 亲密 / 人像,135mm+ 压缩 / 长焦9
- 光圈与景深:shallow focus(浅景深 / 焦内焦外分离),deep focus(全景深),bokeh(焦外散景质感)
- 光线类型:rembrandt lighting(三角光,戏剧化人像),butterfly lighting(蝴蝶光,时尚 / 美容),rim light / hair light(轮廓光,主体与背景分离),god rays(丁达尔光,通过薄雾),golden hour(日落前后的暖光),blue hour(日落后的冷光),overcast(阴天的柔光),hard light vs soft light
- 镜头特性:anamorphic(变形宽银幕,横向 bokeh 椭圆),fisheye(鱼眼),tilt-shift(移轴 / 微缩感),split-toned(分调)
必须能脱口而出:电影术语
- 镜头语言:low angle(仰拍 / 权威感),high angle(俯拍 / 弱化),dutch tilt(荷兰角 / 失衡),over-the-shoulder(过肩),POV(主观镜头),wide establishing shot(全景定场)
- 调色:teal-orange(青橙对比,商业片标配),desaturated(去饱和 / 纪录片感),neon noir(赛博朋克),pastel(粉彩 / Wes Anderson),film grain(胶片颗粒)
- 胶片型号(每个有独特调性):Kodak Portra 400(肤色暖) / Kodak Tri-X(黑白高对比) / Fuji Velvia(风景饱和) / Cinestill 800T(夜景红 halation)
- 大气:volumetric fog(体积雾),haze(雾霾感),halation(高光红光晕,夜景胶片质感)
艺术史与设计风格
每个风格在模型里都是一组 embedding 锚点。直接喊名字就能召唤:
- 绘画:Impressionism (印象派) / Surrealism (超现实) / Bauhaus / Memphis Design / Brutalism / Art Deco / Ukiyo-e (浮世绘)
- 摄影师:Saul Leiter (彩色街拍 / 反射) / Helmut Newton (高对比时尚黑白) / Gregory Crewdson (戏剧化夜景) / Wolfgang Tillmans (随性肖像) / 荒木经惟 (东亚情色) / Wong Kar-wai 御用 Christopher Doyle (氛围 / 手持)
- 导演 / 摄影指导:Roger Deakins (光感细腻) / Emmanuel Lubezki (自然光 / 长镜头) / Wes Anderson (对称 / 粉彩) / Denis Villeneuve (极简 / 大景深) / 杜可风 (王家卫御用,色温实验)
- 插画 / 概念艺术:Studio Ghibli / Moebius (Jean Giraud) / Syd Mead / Beeple / Greg Rutkowski (这个 2024 后已经被很多模型 filter 掉了)
意图:一个孤独的城市夜景。
业余 prompt: A lonely city at night, beautiful, cinematic, 8k, masterpiece, highly detailed
大师 prompt: Empty Tokyo backstreet at 3 AM, neon vending machine glowing in foreground, wet asphalt reflecting red and cyan signage, shot on Cinestill 800T with visible halation, anamorphic 35mm, low angle, Wong Kar-wai mood, volumetric haze, 1990s Tokyo cyberpunk noir aesthetic
差距不在 prompt 工程技巧——差距在大师脑子里有 50 个具体的视觉决策可以做。模型已经学了这 50 个概念,等你召唤。
翻一下你最近 30 天写过的 prompt——里面有多少个具体的具名视觉概念(具体的摄影师、具体的胶片、具体的灯光类型)?如果少于 5 个,你卡在 layer 3。这不是 prompt 问题,是术语库问题——解药是看 reference,不是学新 prompt 技巧。
"AIGC 时代不用懂摄影,模型替我懂。"——这是 2026 年最危险的认知错误。模型懂,但它不知道你想要哪种"懂"。模型是一个能引用所有摄影术语的助手,但你不开口,它就给你均值——而均值就是那种你一看就知道是 AI 出的烂图。
ComfyUI 节点编程 + 完整 Pipeline
单张 prompt 出图是玩家。大师都是 pipeline 思维——一张专业作品平均迭代 30-100 次,涉及多个工具、多个 seed、多次 inpaint、多轮 upscale。这种迭代要可重现、可调参、可复用——只有节点编程能干这件事。
ComfyUI 是 2026 年的事实标准
跟单提示词工具(Automatic1111 / Forge / Midjourney 网页)的根本差异1112:
| 对比 | 单提示词工具 | ComfyUI |
|---|---|---|
| 交互模型 | 表单 + 按钮 | 可视化节点图 |
| 可复用性 | 截图记参数 | JSON workflow 一键分享 |
| 组合自由度 | 固定流水线 | 任意接线 / 分支 / 循环 |
| 批量能力 | 有限 | 批处理 + 队列 + API |
| 社区扩展 | 插件 | 1000+ 自定义节点包 |
| 定位 | 消费级 | 生产级 / 工程师友好 |
完整创作 Pipeline 八阶段
任务:给某威士忌品牌做一张高端杂志广告。
Reference 阶段:3 小时——Saul Leiter 街拍 + Annie Leibovitz 静物 + 几张 18 世纪荷兰静物画。
Prompt 草稿:4 个版本,每版 16 个 seed,共 64 张候选,挑出 4 张作 base。
ControlNet 调整:用 depth map 控制酒瓶的精确位置和景深。
Inpaint:反复修——酒标变形改 12 次、玻璃反射加 3 次、桌面木纹换 1 次。
Upscale + Photoshop:4K 放大 + Lightroom 调色 + 选区局部锐化。
总耗时:14 小时 / 1 张图。这是专业管线的现实。
"AIGC 让生图 5 秒一张。"——是,但 5 秒出的图大部分是素材,不是作品。专业作品总是几十次迭代+后期。把 AIGC 当"产出印刷机"的人,永远进不了大师区——大师把 AIGC 当"画笔",画笔出一根线,画家用一根线决定整张构图。
品味——大师真正的护城河
2026 年模型每月通胀。前 5 层任何人都能在 12 个月内打到基础熟练。护城河只剩一样:品味。品味是看 1 张图 0.3 秒内能说出三层判断的能力——技术层、美学层、系列层🟡 med。
三层判断:怎么看一张图"好不好"
- 技术层:解剖正确(手 / 脸 / 透视)、光影一致(光源方向 / 阴影长度 / 反射逻辑)、构图稳(视觉重心 / 引导线 / 留白)。这层是客观的,可以教。
- 美学层:有没有视觉重心?有没有情绪?有没有"作者的眼睛"(一个看世界的角度)?这层半主观,但训练得出来。
- 系列层:这张图单看好,放进 10 张系列里还好吗?反复回到一个母题(童年记忆 / 黑色电影 / 城市夜景 / 性别压抑),才显出作者性。大师的护城河是 consistency,不是 best single shot。
品味怎么训练
没有捷径。三件事循环做:
- 大量看 reference:每天 30 分钟。摄影师(开始看 Saul Leiter / Helmut Newton / Wolfgang Tillmans / Vivian Maier),画家(Hopper / Vermeer / Caravaggio),电影(Wong Kar-wai / Roger Deakins / Wes Anderson / Denis Villeneuve),广告(Apple / Wieden+Kennedy / Bottega Veneta 视觉)。
- 看了之后强迫自己说清:它好在哪?用了什么具体技术?(光线?构图?色调?姿势?气氛?)说不清楚 = 看了等于没看。
- 找自己的母题:你最近 3 个月反复回到的视觉主题是什么?如果你说不上来——你还没有作者性,只在"prompt 拼贴"。
看 Saul Leiter 的一张街拍(雨后曼哈顿,模糊的人影穿过红色雨棚倒影)。三层拆:
技术层: 浅景深、85mm 等效焦段、低角度、雨水反射红色光晕(Cinestill 类似 halation 效果)。
美学层: 视觉重心在红色色块,人影是次要;前景虚化做画框;构图用了反射做"画中画"。
系列层: 这是 Leiter 60 年代纽约街拍系列里很多张里的一张——他反复回到玻璃反射、雨棚、模糊人影这几个母题。单张好的人多,有母题的人少。
有人说"AI 时代品味贬值了,因为人人都能出美图"——错。逻辑反过来:模型变强,prompt 的边际效应下降,品味的边际效应上升。当 100 人都能用 Midjourney 出技术正确的图时,谁能选出那张真的好的图、把它放进一个有 story 的系列里,谁就是大师。技术地板抬高 = 品味天花板更稀缺,不是更廉价。
问自己两个问题:(1) 你能说出 10 个你长期跟随、知道作品的视觉创作者吗?(摄影师 / 导演 / 画家 / 插画师都算)。(2) 你能说出自己反复回到的 3 个视觉母题吗?——这两个数字大致决定你在 layer 6 的位置。
六层叠加,从工具人到作者
直接回答原问题——成为 AIGC 生图大师需要的知识和创作框架,是六层叠加的能力栈。
前三层是工程能力(layer 1-3:模型、prompt、控制),1-3 个月可以基础熟练。这一段你学的是工具——diffusion 原理、不同模型生态位、prompt 在不同模型的方言、ControlNet/IP-Adapter/LoRA 三件套。能干到这层,你已经在 95% 的"AIGC 玩家"前面——但你还是 工具人,出的图还是一眼看出是 AI 出的。
第四层是大师的分水岭(layer 4:美学术语库)。这是绝大多数人撞到的天花板——也是科班摄影 / 电影 / 设计出身的人有先天优势的位置。模型已经学了几百年的视觉语言,你 prompt 里能调用多少,直接决定输出能不能跳出"AI 均值美感"。这一步靠的不是技术,是看 reference 的小时数——3-12 个月持续训练。
第五层是系统化(layer 5:ComfyUI + 8 阶段管线)。从单张 prompt 出图升级到工业级 pipeline——批处理、控形、修补、放大、串系列。这是把"会做一张"变成"会做 100 张"的能力。1-2 年逐步形成自己的标准管线。
第六层是终身工程(layer 6:品味)。看 reference、形成母题、训练判断力、建立作者性。这一层不能速成,也不能委外。模型每月通胀,品味是唯一通缩的资产——每年看的 reference、形成的判断力,在 5 年后变成你别人复制不了的东西。
具体学习顺序建议:1-3 个月 layer 1-3(打地基)→ 4-12 个月 layer 4(建术语库)→ 12-24 个月 layer 5(建 pipeline)→ 持续终身 layer 6(训品味)。Layer 6 应该从第一天就开始,不要等学完工具——因为品味的复利最大、时间最长,起步越晚损失越大。
关键不确定性
- 模型景观变化非常快。本讲稿§01 的具体模型对比表写于 2026-05-15。Flux 2 / MJ v8 / Imagen 4 / SDXL 这几个名字 6 个月内必然有新版本上场,可能整个生态位重排。结构(真实感王 / 美学王 / 文字王 / 开源王 / 编辑王)稳定,具体名字会换 🟡 med。
- "大师"标准本身主观。商业摄影大师、概念艺术大师、UI 视觉大师、个人风格艺术家——四种"大师"的能力栈不完全相同。本讲稿偏向广义视觉创作大师,商业偏多——纯艺术方向(NFT / gallery)的人可能 layer 4 和 6 权重更大,layer 5 反而不重要 🟡 med。
- "美学是分水岭"是观点,不是事实。这是本讲稿的核心论断,基于多个 2026 业界评论和本人观察 ——但没有 controlled study 证明"懂摄影术语的人 AIGC 作品质量更高"。可能科班背景的优势比讲稿描述的小,也可能更大 🔴 low。
- "模型在通胀,品味在通缩"是 metaphor,不是 measured fact。它直觉上对,但没人做过严格量化。请按隐喻接收,别当数据。
- 个人风格的形成路径高度个体化。本讲稿建议的"找母题、看 reference"是 well-trodden path,但有些艺术家是反过来——先做一堆,事后发现自己回到了某些主题。两条路都对。
Sources
- Cliprise — Best AI Image Generator 2026: Flux vs Midjourney vs Imagen — https://www.cliprise.app/learn/comparisons/features/best-ai-image-generator-2026-tested-ranked
- Gradually AI — The 9 Best AI Image Generation Models in 2026 — https://www.gradually.ai/en/ai-image-models/
- WaveSpeedAI — Midjourney V8 vs FLUX vs Stable Diffusion: Best AI Image Generator in 2026 — https://wavespeed.ai/blog/posts/midjourney-v8-vs-flux-vs-sora-best-ai-image-generator-2026/
- Stable Diffusion Art — How does Stable Diffusion work?(latent space + diffusion 原理) — https://stable-diffusion-art.com/how-stable-diffusion-work/
- Stable Diffusion Art — Stable Diffusion Samplers: A Comprehensive Guide — https://stable-diffusion-art.com/samplers/
- Wikipedia — Diffusion model — https://en.wikipedia.org/wiki/Diffusion_model
- ImprovePrompt — Mastering Image Generation AI Prompts: The Complete 2026 Guide — https://www.improveprompt.ai/learn/how-to-improve-image-generation-prompts
- Cliprise — AI Prompt Engineering 2026: Prompts That Actually Work — https://www.cliprise.app/learn/guides/best-practices/ai-prompt-engineering-complete-guide-2026
- Travis Nicholson — 100 Cinematic AI Image Prompts (Film, Lighting, Camera Angles) — https://travisnicholson.medium.com/100-cinematic-ai-image-prompts-film-lighting-camera-angles-dramatic-scenes-ee907fd6c7fb
- Most Sublime — Five photographic lighting prompts that create distinct effects — https://mostsublime.substack.com/p/five-photographic-lighting-prompts
- NVIDIA Developer — How to Build, Run, and Scale High-Quality Creator Workflows in ComfyUI — https://developer.nvidia.com/blog/how-to-build-run-and-scale-high-quality-creator-workflows-in-comfyui/
- IImagined — Advanced ComfyUI Workflows for Professional AI Art: Complete 2026 Guide — https://iimagined.ai/blog/advanced-comfyui-workflows-professional-ai-art
- Shree Bhakta (Medium) — The Ultimate Combo: LoRA + ControlNet + IP-Adapter + Prompt — https://shree6791.medium.com/part-6-the-ultimate-combo-lora-controlnet-ip-adapter-prompt-c938fcb43b27
- Stable Diffusion Art — IP-Adapters: All you need to know — https://stable-diffusion-art.com/ip-adapter/
- Mercity Research — Understanding and Training IP Adapters for Diffusion Models — https://www.mercity.ai/blog-post/understanding-and-training-ip-adapters-for-diffusion-models/