VELVET — 内容创作管线 / Production Pipeline

01

剧本与分镜

Script & Storyboard

编写故事场景、规划镜头语言、定义情绪节奏。每 5 秒一段，规划运镜与构图变化。

展开详情 / Details

每段 5 秒对应一个提示词 + 运镜指令
运镜类型：dolly in / push in / static / pan
输出格式：分段提示词，每段以 CAMERA: 前缀标注运镜

Claude / GPT cinematic-script-writer

Output: Segment prompts with CAMERA: prefix

⚠️

Costume Spec

Character Costume Specification

每个项目必须定义精确的角色服装规范，所有九宫格 prompt 引用同一份。跨场景服装必须一致。精确到袖型、领口、开叉、配饰。

Mandatory Cross-Scene Consistency

02

角色参考图

Character Reference

5-Slot 参考图系统：生成角色一致性参考图集，确保多段视频人物统一。建议分辨率 576×1024 (9:16 TikTok)。

展开详情 / Details

Slot 1: Front face full size — 主身份锚点 (primary identity anchor)
Slot 2: 2×2 collage — 多角度 (profile, quarter-left, quarter-right, front)
Slot 3: 2×2 collage — 表情 (expressions)
Slot 4: 2×2 collage — 全身 + 场景 (full body + settings)
Slot 5: 2×2 collage — 补充角度 (supplementary angles)
建议分辨率 576×1024 (9:16 TikTok)
CLIP Vision 使用参考图确保跨段一致性

Gemini Flux Kontext Midjourney 5-Slot Collage System

Output: 5 reference slots (1 full + 4 collages) @ 576×1024

03

关键帧生成

Keyframe Generation

用 Gemini 3 Pro 生成竖版九宫格 (1024×1792)，选帧后 crop 到 576×1024。生成后必须通过视觉审查 Gate 才能继续。

展开详情 / Details

竖版九宫格 1024×1792（禁止方图 1024×1024）
无白边 prompt: "NO borders, NO gaps, panels flush edge to edge"
5px margin trim on panel edges (remove Gemini boundary artifacts)
服装描述必须引用 Costume Spec（精确到袖型/领口/开叉/配饰）
视觉审查 Gate: 用 vision model 逐帧检查服装/外观是否符合 costume spec
不通过 → 终止重新生成

Gemini 3 Pro 九宫格 Visual Audit Gate

Output: 3 keyframes @ 576×1024, costume-verified

04

FMLF 多帧视频生成

FMLF Multi-Frame Video Generation

FMLF 多帧参考控制：3 关键帧 → Wan 2.2 Remix NSFW + LightX2V 加速。双 GPU 并行生成。

展开详情 / Details

默认模型: Wan 2.2 Remix NSFW v2.0 (A/B 测试确认优于标准模型)
NSFW text encoder: nsfw_wan_umt5-xxl_fp8_scaled
LightX2V LoRA acceleration (strength 0.6)
防闪白参数: high_noise_mid_strength=0.5, low_noise_mid_strength=0.0, mode=NORMAL
分辨率: 576×1024 (9:16)
Padding: 生成 N+8 帧, trim 前 N 帧
双 GPU 并行: cuda:0 (port 8188) + cuda:1 (port 8189)
动作规划: 3 KF = 最多 2 个动作转换, 每个至少 24 帧
Prompt 只写运镜+动作，服装交给关键帧

ComfyUI FMLF Wan 2.2 Remix NSFW LightX2V Dual GPU

Output: 576×1024 raw video, 16fps

⏱ ~80 秒/段

05

台词与旁白

Voice & Narration

用 TTS 生成角色语音，或录制真人配音。确保语音时长匹配视频段落。

展开详情 / Details

TTS 可生成多语言角色语音
语音时长需与对应视频段落精确匹配
ACE-Step 可用于生成背景音乐

ElevenLabs IndexTTS (gpu-local) ACE-Step

Output: MP3/WAV audio clips

06

说话视频生成

Talking Head Generation

InfiniteTalk：取运动视频最后一帧 + 音频 → 嘴型同步视频。生成后 ffmpeg 拼接到运动视频末尾。

展开详情 / Details

关键参数：audio_scale=1.5, fps=16
AudioSeparation 取 Vocals (index 3)
生成的说话片段自动拼接到运动视频末尾
使用 Wan 2.1 模型

ComfyUI InfiniteTalk Wan 2.1 ffmpeg

Output: Talking segment, 480×672

⏱ ~75–135 秒

07

环境音效

Foley & Ambience

MMAudio 分析视频画面自动生成环境音效。提示词描述场景声音：脚步、雨声、车流、风声。环境音铺满全片，与人声分层混合。

展开详情 / Details

视频画面自动分析生成匹配的环境音
可通过提示词精确描述场景声音
环境音独立于人声，分层叠加

ComfyUI MMAudio

Output: 44kHz ambient audio track

08

混音与拼接

Mix & Assembly

ffmpeg 多轨合成：视频 + 环境音 + 人声。环境音全片铺底，人声在对应时间点叠加。

展开详情 / Details

环境音 volume 0.6 铺底全片
人声在对应时间点叠加
可加淡入淡出、音量自动化

ffmpeg

Output: Final video with mixed audio

09

后期处理

Post-Production

标准后处理：Padding Trim → Deflicker → 帧插值 32fps。必须分两步执行。

展开详情 / Details

Step 1: trim at 16fps — 移除 padding 帧
Step 2: minterpolate to 32fps + deflicker
⚠️ 不能合并！合并会导致视频变短一半

ffmpeg minterpolate deflicker

Output: Final video @ 32fps