Phantom多图参考一致性视频生成

5.0

0 reviews

1.9K

293

Description

项目：Phantom

仙宫云注册:https://www.xiangongyun.com/register/9YM3YN

Pix工作室工作流地址：https://www.xiangongyun.com/image/detail/928f10c9-7468-4a67-9b29-46351a1be185

Pix工作室：人物在视频一致性一直是难题，字节跳动最新开源的Phantom视频生成框架通过创新的跨模态对齐技术，构建文本-图像-视频三元组数据驱动模型学习，采用动态窗口注意力机制和双条件去噪架构，在人物身份保留、多主体交互及复杂场景生成中实现突破性进展。该框架支持1-4张参考图像联合输入，通过ComfyUI工作流可实现16帧视频生成（RTX4090耗时约3~5分钟），在虚拟试穿、产品演示等场景中身份一致性达93.7%，超越Vidu、Pika等商业方案，其开源的1.3B模型已支持多图融合生成，14B版本将支持8K分辨率（暂未发布14B）。该工作流需要的pytorch版本要求高，依赖繁杂，目前已顺利跑通，大家可以去上面地址玩一玩，王炸级别项目。

Discussion

(No comments yet)

Loading...

Author

pix_studio

15.2K

152

64.9K

Reviews

No reviews yet

Versions (1)

- latest (8 months ago)

Node Details

Primitive Nodes (14)

ImagePadKJ (2)

LoadWanVideoT5TextEncoder (1)

WanVideoBlockSwap (1)

WanVideoDecode (1)

WanVideoEncode (1)

WanVideoEnhanceAVideo (1)

WanVideoModelLoader (1)

WanVideoPhantomEmbeds (1)

WanVideoSLG (1)

WanVideoSampler (1)

WanVideoTeaCache (1)

WanVideoTextEncode (1)

WanVideoVAELoader (1)

Custom Nodes (19)

ComfyUI

- PreviewImage (2)
- LoadImage (2)

ComfyUI-VideoHelperSuite

- VHS_VideoCombine (8)

KJNodes for ComfyUI

- ImageResizeKJ (2)
- ImageBatchMulti (1)
- ImageConcanate (2)
- INTConstant (2)

Model Details

Checkpoints (0)

LoRAs (0)

OpenArt

Workflows

Active Sessions