跳转至

AI 视频生产管线

主题:从剧本到成片的完整技术链路
适用项目Suchka-VelvetCineCog-Studio

完整流程

剧本/分镜
  → 角色参考图(Gemini / ComfyUI Z-Image)
  → 关键帧生成(Wan 2.2 / Seedance)
  → I2V 运动视频(gpu-local ComfyUI)
  → TTS 配音(Fun-CosyVoice 3.0)
  → LongCat-Video-Avatar lipsync
  → MMAudio 音效
  → ffmpeg 混音
  → 后期合成(MP4 输出)

图像生成

本地(gpu-local ComfyUI)

模型 用途 参数
Z-Image Base 高质量角色肖像 cfg=2.5, steps=20
Z-Image Turbo 快速预览 cfg=1.0, steps=8
Wan 2.2 Remix NSFW v2.0 I2V 主力 默认 cuda:1 端口 8189

云端

平台 模型 价格
Replicate Seedance 1 Pro Fast $0.075/5s
Replicate LTX-2.3 Pro 最快
Replicate Seedream 4.5 角色一致性强

Storyboard Grid 模型对比实验(2026-04-24)

实验:以《小男孩找到了彩虹》为例,测试 3 款模型生成 9 格 3×3 横版分镜板
统一 Prompt:Pixar 3D 风格,16:9 横版,3×3 grid,无边框

模型 布局控制 格数 方向 一致性 画质 推荐
Google Gemini 3 Pro 9格 横版 3×3 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ✅ 首选
ByteDance Seedream 4.5 8格 竖版 2列 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ❌ 不支持 grid
ByteDance Seedream 5 Lite 9格 横版 3×3 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ✅ 可用

关键结论: - Seedream 4.5:架构限制,无法遵循 grid 布局指令,强化 prompt 无效 - Seedream 5 Lite:成功生成 3×3 横版,但 Panel 5(中间格)只有彩虹无人物(小异常) - Gemini 3 Pro:布局最稳定,画质最高,首选 - 两款模型风格相似(Pixar 3D),未来需在成品中清晰标注来源模型

进阶方案(更精确布局)
程序化拼接——单独生成 9 张图 + PIL/Python 合成 → 100% 精确布局,消除格子内容缺失问题


Seedream 4.5 多图输出(2026-04-24 实测)

  • sequential_image_generation: true + max_images: 1-15 支持一次生成最多 15 张风格一致的图
  • 角色一致性强,适合 character sheet、多角度展示
  • Storyboard grid:靠 prompt 描述 3x3 storyboard grid 等布局,模型把格子画进一张图里(非独立输出)
  • Gemini API 澄清:Gemini 同样不支持原生多图输出,candidate_count=1 限制;两者都是 prompt 描述布局

NVIDIA RTX Video Super Resolution (VSR)(2026-04-23)

  • ComfyUI 节点Nvidia_RTX_Nodes_ComfyUI(搜 Manager "RTX" 安装)
  • 原理:Tensor Cores 单 pass 完成超分 + 去压缩噪声(无需独立 denoise 步骤)
  • 输入:标准 IMAGE tensor,单张 PNG = batch of 1,和视频帧完全相同
  • 缩放:1x–4x 或指定目标尺寸
  • 质量档:LOW / MEDIUM / HIGH / ULTRA;最大输出 ~16MP
  • 要求:RTX 30 / 40 系列(依赖 NVIDIA NVVFX SDK)

TTS / 语音

  • 默认:Fun-CosyVoice 3.0(本地 gpu-local)
  • 最佳中文参考音:jixian-ref-zh4.wav
  • 最佳英文参考音:jixian-ref-en.wav
  • 路径:/home/jixian/work/cosyvoice2/
  • 备选:Qwen3-TTS VoiceDesign(seed 锁定音色)
  • MiniMax Speech-2.6-HD:外部 API
  • ✅ 音量规则(永久确定,2026-04-14):原始输出直接用,不加任何增益
  • +7dB / +9dB / loudnorm 全部放弃,直接用原始音频
  • Gemini TTS 男声列表
  • Charon — 中低音,沉稳权威(推荐首选)
  • Fenrir — 低沉男声
  • Puck — 轻快男声
  • Orus — 中性男声
  • 默认为 Kore(女声),用于 voice conversion 需改用男声

Seed-VC(声音转换)

功能:将任意 TTS 音色转换为目标声音(如 Jixian 声音)

  • 安装路径gpu-local:/home/jixian/work/Seed-VC/
  • venv/home/jixian/work/seedvc-venv/
  • 推荐参数--diffusion-steps 50 --inference-cfg-rate 0.9
  • 调用方式
    cd /home/jixian/work/Seed-VC
    source /home/jixian/work/seedvc-venv/bin/activate
    python inference.py \
      --source /path/to/tts_output.wav \
      --target /storage/jixian-assets/voice/jixian-voice-30s.wav \
      --output /path/to/output.wav \
      --diffusion-steps 50 \
      --inference-cfg-rate 0.9
    
  • 适用场景:Gemini TTS(情感控制更好)转换为 Jixian 音色

MOSS-TTS(Zero-shot 声音克隆)

  • 来源:复旦 OpenMOSS 团队
  • 模型OpenMOSS-Team/MOSS-TTS(8B 参数)
  • 安装路径gpu-local:/home/jixian/work/moss-tts/
  • venv/home/jixian/work/moss-tts-venv/
  • 功能:Zero-shot 声音克隆,支持中文/英文,无需训练
  • 状态:安装完成,推理结果待评估(与 MiniMax / CosyVoice 对比)
  • 加载注意:需 device_map="auto" + accelerate,避免 GPU OOM

视频录制方案(HTML Slides → MP4)

capture_v10(当前最佳实践,2026-04-13 验证)

  • 工具:System Chrome --app + ffmpeg x11grab + Playwright 控制
  • 脚本capture_v10_clean.py
  • 优点:真实 30fps,无 browser UI 遮挡,流畅度远超截图拼接
  • 关键规则
  • ffmpeg filter_complex 必须用 subprocess.run(list),不能 shell=True
  • 首张幻灯片需 pre-hide content,避免 GSAP 动画前闪烁
  • 音频格式:24000Hz mono(MiniMax 输出)
  • 多段 concat:两段 AAC profile 不一致时用全重编码,不用 -c copy

capture_v12(v12 crop 方案,2026-04-20 确认)

解决 --no-sandbox 警告条问题: - 录制分辨率 1920x1088 → crop top 40px → bottom pad 8px → 输出干净 1920x1080 - 这是 Chrome 在 Docker/Xvfb 环境下的必要处理步骤

独立页面策略(交叉干扰防护): - 在捕获流程中实施每张幻灯片独立的 Playwright 页面。 - 这避免了连续播放多张幻灯片时的内存泄漏和 DOM 交叉干扰,确保了图像与音频的最终同步质量。

capture_v5(旧方案,已弃用)

  • fake clock + Playwright 截图 → ffmpeg 拼接
  • 问题:非真实帧,动画不连贯

HTML Slides 开发规范

翻译栏防护(必须)

  • 问题:Chrome 对中文页面自动弹出 Google Translate 工具栏,遮挡录制画面
  • 修复:所有需要录制的 HTML 页面必须在 <html> 标签声明 translate="no"
    <html lang="zh" translate="no">
    
  • 适用范围index.htmlplayer.html,以及所有幻灯片 HTML

多幻灯片播放器:合并 HTML 优于 iframe

方案 问题
iframe 嵌套 crossfade 闪黑 + postMessage 时序不可靠
单页合并 HTML 无闪烁,GSAP 动画完全可控

合并方案要点: - 所有幻灯片内联为 <div class="slide" id="sN"> - CSS ID 用 sN- 前缀做命名空间 - 每张幻灯片独立 playS{N}() 函数 - 幻灯片退出时调用 killLoops() 清除 repeat:-1 的 tween

X11 截图注意(SSH 环境)

  • SSH 到 gpu-local 后 $DISPLAY=:99,但 import 等工具无法连接 X11 socket
  • 正确做法:用 subagent 本地执行截图(subagent 的 SSH 是真实登录 shell,继承完整 X11 环境)

字幕系统(SubtitleEngine)

首次应用:Gemma4 越狱视频(2026-04-16)

打字机字幕效果

  • 工具:SubtitleEngine(内嵌 JS)
  • 速度:40ms/字
  • 样式规范:
  • ❌ 不用半透明黑底 background: rgba(0,0,0,0.5)
  • ✅ 纯白文字 + text-shadow(多重阴影增强可读性)
  • 位置:bottom: 52px
  • 字号:font-size: 26px
  • 最大宽度:max-width: 75%

WaveGlow 音频可视化

参考来源:http://design.bot.regdesk.ai/regdesk-presentation/

实现原理

  • JS 文件:waveglow.jscenterwave.jscaptions.js
  • 架构:3 个 canvas 叠加
  • center-wave-glow2(外发光层)
  • glow(中间光晕)
  • canvas(主波形)
  • CSS filter: blur() 制造发光效果
  • 播放时显示,暂停/结束时自动隐藏

素材资源(Stock Footage)

工具stock-footage skill(2026-04-15 扩展)

级别 平台 接入方式
Tier 1 Pexels API(已集成)
Tier 1 Pixabay API(Key 已配置)
Tier 2 Mixkit / Coverr / Life of Vids 浏览器抓取
Tier 3 Dareful / Videezy / Motion Elements 手动下载
  • API Key 路径:skills/stock-footage/references/api-keys.md

关键规则

  • 数字必须写英文全拼(CosyVoice 对符号不稳定)
  • 单段 TTS ≤12s,超长拆段 + ffmpeg concat
  • 每条 TTS 必须 Whisper QA 验证完整性
  • 所有子任务丢 subagent,不阻塞主 session

相关