Sora 对 Scaling Law 的信仰及其突破性的技术创新,使它持续保持领先地位。同时,也再次证明了“大力出奇迹”依然适用于文生视频领域。Sora 披露的技术细节,远远不足以窥其全貌。同时 Sora 目前也未正式对外开放。源于此,针对 Sora 的思考和讨论从未停止过。
openai 发布的技术报告
Sora 给整个 AI 领域带来的最大冲击,莫过于如何优化和校正现有的视频生成思路和框架。而由此也引发了持续至今的复现 Sora 的热潮。复现 Sora 的动力,一方面来自技术人员的技术执着与技术理想,另一方面也来自于未来可预期的商业价值。另外,不容忽视的是,这家持续被戏称为 CloseAI 的人工智能技术研究机构,已然成为了行业内的标杆,几乎每次发布的产品都能带来颠覆式的创新。但是 OpenAI 似乎在坚持闭源的道路上越走越远,这更加点燃了大众对复现 Sora 的激情。我们可以相信未来的几个月内,多个类 Sora 模型将会陆续发布,并将开源出来。Sora 发布后的这一个多月来,其相关技术创新的讨论和复现的进度如何呢?下面我们一起来看看。关于复现 Sora,本文从以下三方面展开:
Snap Video 是2月29日发布的类 Sora 模型,它使用到了可扩展的时空 Transformer,来自开发出 SnapChat 图片分享软件的 Snap 公司,以及特伦托大学等机构。传送门:《首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
Open-Sora 1.0
Open-Sora 1.0 是3月18日全面开源的首个类 Sora 模型,来自 Colossal-AI 团队,该开源模型涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重。传送门:《没等来OpenAI,等来了Open-Sora全面开源》
Mora
Mora 是几天前由理海大学、微软研究院的研究者提出的多智能体框架,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成能力。传送门:《复刻Sora的通用视频生成能力,开源多智能体框架Mora来了》尽管目前的模型复现效果依然无法企及 Sora,但是短短一月有余,已经有明显的技术突破出现,不失为一个乐观的信号。据不完全统计,国内已有近 10 支团队在复现 Sora,让我们拭目以待。
先于 DiT 的技术架构创新
Sora 使用的 DiT(Diffusion Transformer) 架构目前来看是其最大的技术创新,但追溯来看,也许国内相关的进度更早一些。
U-ViT 架构
U-ViT 架构2022年9月,清华团队提交的名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,比 DiT 还要早 2 个月。该论文提出用基于 Transformer 的网络架构 U-ViT 替代基于 CNN 的 U-Net,这与 Sora 将 Transfomer 和扩散模型融合的思路不谋而合。传送门:《国内公司有望做出Sora吗?这支清华系大模型团队给出了希望》
VDT
2023年5月在 arXiv 网站上公开的 Video Diffusion Transformer (VDT),是由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行合作的,基于 Transformer 的 Video 统一生成框架。对采用 Transformer 架构的原因也给出了详细的解释。传送门:《国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收》也许在核心技术的创新上,国内的探索并不落后,而是走在了前面。不过,囿于资源限制以及技术路线规划等其他原因,没能在之前实现类似 Sora 的效果。Sora 无疑验证出了一条技术可行性的道路,而我们本身在技术架构上的领先探索,将更有利于我们复现出 Sora,甚至可以更加乐观地相信,在某些领域内超越 Sora 的效果。
Sora 是世界模型吗?
由 Sora 引发的另一个热点讨论,是关于世界模型的。Sora 生成的视频无疑对物理世界有了一定了解,比如经典的“海盗船在咖啡杯里纠缠”,肉眼可见能涉及到专业的流体动力学、光线等物理世界的特征。但是以 Yann LeCun 为代表的一部分科学家力证 Sora 的训练方式和世界模型没有关系。那 Sora 是不是世界模型,到底懂不懂物理世界?关于这个讨论已经蔓延至各个论坛和直播中。可见对于究竟什么是世界模型这个话题,大家也是见仁见智的。而我们能明确的是,如果 Sora 是世界模型,那通往通用人工智能(AGI)的理想,可能比我们预计的还要早到达。那复现 Sora 就有了一定的必要性。关于 Sora,我们保持着好奇,并持续探求以下问题的可能答案。
Sora 之前的视频生成架构/技术还能不能用?如何用?
Sora 之后,谁是被遗忘的?谁又是被仰望的?
Sora 之外,其他创业公司/团队要如何做?做什么?
Sora 会改变主流的技术架构吗?以 DiT 为代表的架构是以后主流的架构选择吗?
国内技术力量应不应该复现 Sora?为什么?
已知有近 10 支团队在复现 Sora,我们可能看到的未来格局是什么?
为什么是 OpenAI? OpenAI 的模式能否复刻?
Sora 之后,全球的视频生成格局是怎样的?又将如何发展和变化?
如何看待一些明星创业公司公开表示不做 Sora?
多模态大模型的未来在哪里?
不同视角下,如何看待 Sora 的冲击?(投资人、非技术人、央国企、AI 创业者、从业者等视角)
OpenAI 扮演着什么样的社会角色?你如何看待这家公司?
……
Sora 带来的冲击是颠覆式的,因此对以上问题的求解将持续进行着。而作为聚焦于 AI 前沿技术探索和应用实践的团队,本站 AI 技术论坛再次将视线放在了视频生成领域。4月13日,在北京六道口,我们策划了一期技术论坛,聚焦 Sora 发布后的技术创新、思考与应用实践。活动现场汇聚多位重磅嘉宾,同时我们也会更加深入地探讨上面提到的问题。在可预见的未来,相信本次活动能产生一定的积极作用和启发,以期推动我国 AI 开源社区的技术发展和传播。
本站 AI 技术论坛时刻保持对 AI 领域技术突破的敏感追踪,为了深入探究 Sora 对技术的冲击和对各行各业带来的影响,我们特别策划了「视频生成技术与应用 — Sora 时代」AI 技术论坛。希望助力广大企业和从业者紧跟技术发展潮流,全面了解 Sora、视频生成技术、多模态大模型等前沿领域的技术突破和应用实践。面对扑面而来的 AI 视频生成,积极拥抱学习并敢于尝试,才能抓住技术潮流,破局而生。期待 2024.04.13,在北京海淀区,和你相遇。论坛报名通道正式开启,扫描海报中二维码可直达活动页面。由于嘉宾介绍发布时间较晚,本场论坛的早鸟优惠期有所延长。即日起至04月07日23:55,购票参会即可直减 200 元, 享受 699 元早鸟特惠门票(原价 899 元)。五人团购更有专属优惠,详见活动详情页。本站 AI 技术论坛往期的参会者,请单独添加 Alice 微信,直达专属优惠链接。
活动亮点
赠送永久观看上一期「视频生成前沿研究与应用」论坛活动视频及课件(上期活动已购请联系 Alice 扣减,本期购买后记得找 Alice 兑换上一期视频)