iVideoGPT,满足世界模型高交互性需求。
-
论文地址:https://arxiv.org/pdf/2405.15223 -
论文标题:iVideoGPT: Interactive VideoGPTs are Scalable World Models
-
首先,它显著减少了 token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率 n 要小得多; -
其次,通过条件编码,预测后续 token 的 transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。
以上就是清华、华为等提出iVideoGPT:专攻交互式世界模型的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:张大嘴,转转请注明出处:https://www.dingdanghao.com/article/540924.html