首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

全景相机第一股上市,影石创新值得申购么 华为nova 14手机天猫旗舰店优惠价2251元 索尼 PS5 / Pro 海外多地优惠:《黑色行动 6》同捆包 399.99 美元等 联想集团AI转型显成效:杨元庆承诺“市场份额不掉、利润不掉” 摄影师终极梦想机?索尼A1M2深度测评:性能炸裂背后藏着啥黑科技 以技术赋能油气,华为2025油气行业峰会在京召开 千元机玩转AI?魅族Note 16 Pro深度体验:防摔天花板,夜景拉跨! 华为携生态伙伴亮相全球人工智能终端展:全方位展示AI生态与应用 多彩氛围感新旗舰,vivo S30系列影像体验再升级 宏碁推出暗影骑士PG271K“可移动”显示器:4K 72Hz/FHD 144Hz 小米15S Pro正式发布,玄戒O1带来优秀表现 苹果官宣:即日起至6月18日换购新iPhone享额外优惠 【vivo X300系列深度解构】直屏旗舰的「不可能三角」如何破局? vivo新机官宣:5月29日,正式发布 TCL发布FLIP 4 5G翻盖功能手机:满电续航超2天,售价80美元 真我GT7深度评测:中端机市场的技术普惠样本 小米15S Pro首发评测:十年造芯,送给米粉的一份礼物 宝马集团董事长:中国是宝马未来发展的重要战略支点 全国汽车以旧换新智能服务平台正式上线,政府补贴一站领取 智己L6预售开启,刘涛详解品牌定位与技术创新,剑指高端市场 宝马齐普策:携新世代概念车亮相,中国速度引领智能未来出行 莲花跑车Theory 1惊艳亮相2025上海车展前夕,性能强悍引期待! 2025年始兴县事业单位招聘工作人员暨“青年人才”和“急需紧缺人才”招聘公告(89人) 2025年广州市番禺区调任科级领导职务公务员公告(10人) 吉利2025新车曝光:9款重磅产品,旗舰SUV、轿车都来了 2025首周,吉利给比亚迪一个下马威 高阶智驾≠高价,丰田开始进场!15万级激光雷达智驾SUV来了 领航穿越美国“死亡公路” 魏牌全新蓝山为何如此勇? “以旧换新”新政落地,这回轮到国四车主换新车了 蜂巢能源第五届电池日大招不断!越野、蜂行电池等重磅新品发布