Fantasy AIGC Family

以生成式 AI 统一“人-世界-交互”的新一代范式

总体架构

Fantasy AIGC Family 以通义万相视频生成模型为统一基座，在同一个强视频生成内核上向空间智能、世界模型、具身智能与 AI 创意等技术领域辐射，构建覆盖人、世界、交互三大维度的三位一体系列模型与系统接口：在人维度沉淀可控表达与一致性表征以支撑可信数字人，在世界维度沉淀可探索的场景表征与可验证一致性以支撑可用世界模型，在交互维度沉淀以 Action 驱动的闭环控制与协同机制以支撑可扩展的交互系统，使三类能力共享表示、共享数据与共享工程管线，并形成可回流、可持续进化的能力飞轮。

最新动态与里程碑

📢 2026年2月 – FantasyVLN 正式被 CVPR 2026 收录

📢 2026年1月 – 我们正式开源了 FantasyVLN 的训练和推理代码及模型权重。

🏆 2025年12月 - FantasyWorld 在斯坦福李飞飞教授团队发布的 WorldScore 评测中斩获第一名，验证了我们的技术路线。

🏛 2025年11月 – 我们的两篇工作 FantasyTalking2 和 FantasyHSI 被 AAAI 2026 接收。

🏛 2025年7月 – FantasyTalking 被 ACM MM 2025 接收。

📢 2025年4月 – 我们正式开源了 FantasyTalking 和 FantasyID 的推理代码及模型权重。

FantasyVLN

Project arXiv Code HuggingFace ModelScope

一个统一的多模态链式思维推理框架，通过将世界模型的推演能力内化到 VLN 架构中，基于自然语言指令和视觉观察，实现高效且精确的导航。

FantasyWorld

ICLR 2026 Project arXiv Code

对应"世界（Worlds）"维度。一个统一的世界模型，集成了视频先验和几何基础，用于合成可探索且几何一致的3D场景。它强调Action驱动下的时空一致性，并作为空间智能与几何一致性的可验证结构锚点。

FantasyTalking

ACM MM 2025 Project arXiv Code HuggingFace HuggingFace Space ModelScope

首个基于 Wan 的高保真音频驱动虚拟人系统，通过双阶段音视对齐与可控运动调制，实现动态场景下面部表情、唇动与身体姿态的精准同步。

FantasyTalking2

AAAI 2026 Project arXiv Coming Soon

一种新颖的“时间步-网络层”自适应多专家偏好优化(TLPO)方法，在口型一致、动作自然、视觉效果三个维度上提升了音频驱动数字人动画的质量。

FantasyPortrait

Project arXiv Code

一种全新的表情驱动视频生成方法，将情绪增强学习与掩码交叉注意力相结合，可在单人或多人肖像场景中生成高质量且富有表现力的动画。

FantasyHSI

AAAI 2026 Project arXiv Coming Soon

面向"人与世界交互"的一种基于图结构的多智能体框架，将视频生成与三维世界动态相融合。它面向更广义的交互闭环与动作空间统一，使视频生成从内容终点转为交互系统的控制通道。

FantasyID

Project arXiv Code HuggingFace ModelScope

以3D面部先验、多视角增强以及层感知注入的提升运动场景下的ID保持视频生成框架。