Fantasy AIGC Family

以生成式 AI 统一“人-世界-交互”的新一代范式

总体架构

Fantasy AIGC Family 以通义万相视频生成模型为统一基座,在同一个强视频生成内核上向空间智能、世界模型、具身智能与 AI 创意等技术领域辐射,构建覆盖世界交互三大维度的三位一体系列模型与系统接口:在人维度沉淀可控表达与一致性表征以支撑可信数字人,在世界维度沉淀可探索的场景表征与可验证一致性以支撑可用世界模型,在交互维度沉淀以 Action 驱动的闭环控制与协同机制以支撑可扩展的交互系统,使三类能力共享表示、共享数据与共享工程管线,并形成可回流、可持续进化的能力飞轮。

最新动态与里程碑

📢 2026年1月 – 我们正式开源了 FantasyVLN 的训练和推理代码及模型权重。
🏆 2025年12月 - FantasyWorld斯坦福李飞飞教授团队发布的 WorldScore 评测中斩获第一名,验证了我们的技术路线。
🏛 2025年11月 – 我们的两篇工作 FantasyTalking2FantasyHSIAAAI 2026 接收。
🏛 2025年7月FantasyTalkingACM MM 2025 接收。
📢 2025年4月 – 我们正式开源了 FantasyTalkingFantasyID 的推理代码及模型权重。
一个统一的多模态链式思维推理框架,基于自然语言指令和视觉观察,实现高效且精确的导航。
对应"世界(Worlds)"维度。一个统一的世界模型,集成了视频先验和几何基础,用于合成可探索且几何一致的3D场景。它强调Action驱动下的时空一致性,并作为空间智能与几何一致性的可验证结构锚点。
一种新颖的“时间步-网络层”自适应多专家偏好优化(TLPO)方法,在口型一致、动作自然、视觉效果三个维度上提升了音频驱动数字人动画的质量。
FantasyPortrait
一种全新的表情驱动视频生成方法,将情绪增强学习与掩码交叉注意力相结合,可在单人或多人肖像场景中生成高质量且富有表现力的动画。
面向"人与世界交互"的一种基于图结构的多智能体框架,将视频生成与三维世界动态相融合。它面向更广义的交互闭环与动作空间统一,使视频生成从内容终点转为交互系统的控制通道。