Production Pipeline
内容创作管线
From Script to Screen — VELVET 全流程内容生产系统
Pipeline
生产流程
01
剧本与分镜
Script & Storyboard
编写故事场景、规划镜头语言、定义情绪节奏。每 5 秒一段,规划运镜与构图变化。
展开详情 / Details
  • 每段 5 秒对应一个提示词 + 运镜指令
  • 运镜类型:dolly in / push in / static / pan
  • 输出格式:分段提示词,每段以 CAMERA: 前缀标注运镜
Claude / GPT cinematic-script-writer
Output: Segment prompts with CAMERA: prefix
⚠️
Costume Spec
Character Costume Specification
每个项目必须定义精确的角色服装规范,所有九宫格 prompt 引用同一份。跨场景服装必须一致。精确到袖型、领口、开叉、配饰。
Mandatory Cross-Scene Consistency
02
角色参考图
Character Reference
5-Slot 参考图系统:生成角色一致性参考图集,确保多段视频人物统一。建议分辨率 576×1024 (9:16 TikTok)。
展开详情 / Details
  • Slot 1: Front face full size — 主身份锚点 (primary identity anchor)
  • Slot 2: 2×2 collage — 多角度 (profile, quarter-left, quarter-right, front)
  • Slot 3: 2×2 collage — 表情 (expressions)
  • Slot 4: 2×2 collage — 全身 + 场景 (full body + settings)
  • Slot 5: 2×2 collage — 补充角度 (supplementary angles)
  • 建议分辨率 576×1024 (9:16 TikTok)
  • CLIP Vision 使用参考图确保跨段一致性
Gemini Flux Kontext Midjourney 5-Slot Collage System
Output: 5 reference slots (1 full + 4 collages) @ 576×1024
03
关键帧生成
Keyframe Generation
用 Gemini 3 Pro 生成竖版九宫格 (1024×1792),选帧后 crop 到 576×1024。生成后必须通过视觉审查 Gate 才能继续。
展开详情 / Details
  • 竖版九宫格 1024×1792(禁止方图 1024×1024)
  • 无白边 prompt: "NO borders, NO gaps, panels flush edge to edge"
  • 5px margin trim on panel edges (remove Gemini boundary artifacts)
  • 服装描述必须引用 Costume Spec(精确到袖型/领口/开叉/配饰)
  • 视觉审查 Gate: 用 vision model 逐帧检查服装/外观是否符合 costume spec
  • 不通过 → 终止重新生成
Gemini 3 Pro 九宫格 Visual Audit Gate
Output: 3 keyframes @ 576×1024, costume-verified
04
FMLF 多帧视频生成
FMLF Multi-Frame Video Generation
FMLF 多帧参考控制:3 关键帧 → Wan 2.2 Remix NSFW + LightX2V 加速。双 GPU 并行生成。
展开详情 / Details
  • 默认模型: Wan 2.2 Remix NSFW v2.0 (A/B 测试确认优于标准模型)
  • NSFW text encoder: nsfw_wan_umt5-xxl_fp8_scaled
  • LightX2V LoRA acceleration (strength 0.6)
  • 防闪白参数: high_noise_mid_strength=0.5, low_noise_mid_strength=0.0, mode=NORMAL
  • 分辨率: 576×1024 (9:16)
  • Padding: 生成 N+8 帧, trim 前 N 帧
  • 双 GPU 并行: cuda:0 (port 8188) + cuda:1 (port 8189)
  • 动作规划: 3 KF = 最多 2 个动作转换, 每个至少 24 帧
  • Prompt 只写运镜+动作,服装交给关键帧
ComfyUI FMLF Wan 2.2 Remix NSFW LightX2V Dual GPU
Output: 576×1024 raw video, 16fps
⏱ ~80 秒/段
05
台词与旁白
Voice & Narration
用 TTS 生成角色语音,或录制真人配音。确保语音时长匹配视频段落。
展开详情 / Details
  • TTS 可生成多语言角色语音
  • 语音时长需与对应视频段落精确匹配
  • ACE-Step 可用于生成背景音乐
ElevenLabs IndexTTS (gpu-local) ACE-Step
Output: MP3/WAV audio clips
06
说话视频生成
Talking Head Generation
InfiniteTalk:取运动视频最后一帧 + 音频 → 嘴型同步视频。生成后 ffmpeg 拼接到运动视频末尾。
展开详情 / Details
  • 关键参数:audio_scale=1.5, fps=16
  • AudioSeparation 取 Vocals (index 3)
  • 生成的说话片段自动拼接到运动视频末尾
  • 使用 Wan 2.1 模型
ComfyUI InfiniteTalk Wan 2.1 ffmpeg
Output: Talking segment, 480×672
⏱ ~75–135 秒
07
环境音效
Foley & Ambience
MMAudio 分析视频画面自动生成环境音效。提示词描述场景声音:脚步、雨声、车流、风声。环境音铺满全片,与人声分层混合。
展开详情 / Details
  • 视频画面自动分析生成匹配的环境音
  • 可通过提示词精确描述场景声音
  • 环境音独立于人声,分层叠加
ComfyUI MMAudio
Output: 44kHz ambient audio track
08
混音与拼接
Mix & Assembly
ffmpeg 多轨合成:视频 + 环境音 + 人声。环境音全片铺底,人声在对应时间点叠加。
展开详情 / Details
  • 环境音 volume 0.6 铺底全片
  • 人声在对应时间点叠加
  • 可加淡入淡出、音量自动化
ffmpeg
Output: Final video with mixed audio
09
后期处理
Post-Production
标准后处理:Padding Trim → Deflicker → 帧插值 32fps。必须分两步执行。
展开详情 / Details
  • Step 1: trim at 16fps — 移除 padding 帧
  • Step 2: minterpolate to 32fps + deflicker
  • ⚠️ 不能合并!合并会导致视频变短一半
ffmpeg minterpolate deflicker
Output: Final video @ 32fps
Overview
流程总览
剧本 参考图 关键帧 运动视频 台词 说话视频 音效 混音 后期
Principles
核心原则
可迭代 / Iterative
每段独立,不满意单独重跑。不用从头来。
分层架构 / Layered
视频、人声、环境音分层生成,独立调整。
本地优先 / Local First
核心管线全部在 gpu-local RTX 4090 上跑,无 NSFW 过滤限制。
角色一致 / Character Consistent
CLIP Vision 始终锁定原始参考图,跨段保持人物一致。
Production
当前制作 / Current Production
EP01 · 她不解释 / She Doesn't Explain → 查看分镜
📝 剧本完成
Fragment 001  |  ~60秒  |  抖音 / Instagram Reel / YouTube Shorts
倒叙结构 — 开场字幕制造悬念,雨夜街头高潮前置,闪回12小时前的晨间仪式,回到现在她说出三个字:我不解释。未接的电话、未说的理由、她去见的不是打电话的那个人。
SVI Chain InfiniteTalk MMAudio IndexTTS ffmpeg
剧本 + 分镜
关键帧生成 (4/7)
TTS 语音 (0/3)
SVI 视频段 (0/9)
InfiniteTalk 说话段
MMAudio 环境音
混音拼接
终审
EP02 · 空房间 / The Empty Room
🔜 待编写
Fragment 003
纯氛围,无人物。高跟鞋、镜子、椅子、光线。坐这把椅子的人不想看风景。