这段时间,巴黎奥运会的热度可以说是拉满了,编辑部小伙伴们天天围在一起看比赛,甚至还有半夜组局的。
而每当看到世界冠军们打出好球、射出高分环时。。。世超脑子里总会冒出个念头: “ 我当年要是也练个一两手,现在高低也是个世界冠军吧 ” 。
但,真要现在的我去玩两把,立马就又菜鸟显形了,活脱脱一个人菜瘾大。
所以,咱心里还是有数的,这些个奥运选手,肉身走到全世界面前参加比赛,哪个不是在背后流了三船五车的汗,世超这辈子估计是没什么机会了。
但就在网上冲浪的时候,咱发现这次巴黎奥运会,一堆明星、运动员和观众们,都在晒自己玩其它运动项目。
比如游泳运动员刘湘打上了排球。
前 NBA 总冠军托尼 · 帕克,也在秀自己的排球爆扣。
一查才发现,原来这是咱们中国科技在法国露大脸了,名字叫阿里云奥运智影时刻 ( Cloud Memento ) 。
简单来说,阿里云在巴黎埃菲尔铁塔、荣军院和战神广场三个地标场所,分别设立了一个体验点。
在这 3 个体验点,任何人只需要花上 3 秒钟,拍几张照片,就能通过 AI 科技,生成一个奥运参赛运动视频。
恐怕你都想象不到这玩意儿在奥运场馆有多火,现场排队的老外,我估摸着能从西直门排到八达岭了。
而且最近这段时间,巴黎是时而下雨、时而暴晒的冰火两重天。
但观众们愣是从风雨交加,排到了艳阳高照。
说什么也得体验体验,来自遥远东方的神秘 AI 科技。
别的不说,光看现场排队的情况,你说这是哪个奥运冠军在签名我都信。
而在现场,体验的观众就有意思了。
这边刚来了个哥们,还挺乐呵的,露出了一口洁白的牙齿。
那边又来了个 “ 鸣人 ” ,放着 “ 萨斯给 ” 不管,反而来现场,放了个影分身练起了柔道。
参与的观众们虽然肤色各异、年龄不同、性别不同,但主打就是全民参与,各个都想体验科技的魅力。
大家一个个上台,简单花几秒摆出个 “A 字形 ” 姿势站好,采集就结束了。
他们只需要在台下稍等片刻,就能在手机里看到自己成为了帅气的运动高手。
一声声 “ Cool ” 的赞美声,也不断从人群中传来,甚至有些体验者,当场就把生成的奥运时刻分享到了社交平台,秀一波。
而在这些队伍中,我们也看到了一些 “ 特殊 ” 的体验者。
一名坐轮椅的中东设计师,来到了现场后,在工作人员的搀扶下完成了采集。
很多年没运动过的她,成功利用这个技术过了一把柔道运动员的瘾。
甚至在现场,我们还逮到了 TikTok 顶流男巫 Zach King 。
这哥们这次又是跑来巴黎玩花活,把整个巴黎跟变戏法一样变成了他的排球赛场。
结果一个不小心,逛到阿里云奥运智影时刻的体验点,直接被硬控住了,当场生成了自己的排球秀。
而在这次爆火的现场背后,差评君也发现,虽然它看起来一点也不简单,实际上也确实有些东西。
因为阿里云奥运智影时刻 Cloud Memento ,和如今大火的生成式 AI 大大滴不一样。
大伙们也都知道,目前生成式 AI 的通病是,生成出的东西,主打一手随心所欲,你要个“ 阳光彩虹小白马 ”,它能给你生成个 “ 阳光 ” “ 彩虹 ” 和 “ 小白马 ” 。
不能说毫无关系,但也是牛头不对马嘴。
所以,为了实现更好的效果,阿里云巴黎奥运智影时刻,不是让AI 直接生成视频,而是选择利用 “ 静态人物照片生成指定体育运动视频 ” 。
根据几张简单的照片,经过 AI 计算,就能精准捕捉还原,并且生成新动作。
这么一来,视频的主体基本就差不离了。
但这种做法也还是会有不少毛病,因为让图片动起来,很容易出现失真、模糊、帧率抖动等情况。
特别是当用某些真人照片当模板的时候,咱最起码的要求就是:生成的得像照片本人吧。
像下面这样给几个小姑娘整上了鬼片特效,我估摸着也只有伽椰子看了能说好。
那阿里云是怎么解决这个难题的,我们也去翻了翻论文,发现他们直接捣鼓出了一套名叫 Animate Anyone ( 让所有人动起来 )的算法,而这套算法里,可有着不少黑科技。
简单举个例子:
让一张图片动起来的步骤里,最困难的就是让 AI 根据已有的图片, “ 脑补 ” 它该怎么动。
大家都知道,视频里人物动作是一帧帧过渡实现的,就像我们小时候画的火柴人,通过快速翻动,卡了人眼的 “ 视觉暂留 ” 的 bug ,让大脑以为人动起来了。
但要实现这种丝滑连招,那画火柴人的时候,我们就得想好火柴人的动作怎么衔接下去,一张张画。
可对 AI 来说: “ 这题目太难了,我不会做! ”
很多时候, AI 会搞成身子动了手飞出去了,头往前走了屁股却还在后面拖着,反正看着就是一眼假。
为了保证人物的稳定性和前后形象一致,阿里云往里面加了个 “ 参考图像网络 ReferenceNet ” 。
这玩意儿相当于一个活字印刷板,它能一口气把图片里的空间细节信息全提取出来。
然后把去噪 U-Net 接入进来,这个 U-Net 就相当于精准的印刷机,它能把前面捕捉到的信息精准分割,清晰地 get 出各种图像元素。
这么一来, U-Net 就能够理解生成目标图像时,该在哪些位置生成哪些细节,从而实现人物形象一致性。
不至于给了海王做原图,输出了一个徐锦江老师。
在解决画面细节问题后,剩下的挑战,就是处理动作和姿态了。
阿里云 AI 团队也不多逼逼,直接设计了一个姿态引导器 Pose Guider 。
说白了,这个姿势引导器就相当于咱小时候练字的字帖,跟着字帖来写字,那效果肯定是杠杠的。
于是,模型生成视频时有了方向,就会让生成的图像动作稳定住,不给跑偏的机会。
再加上其他的一些 “ 法术 ” ,最后,阿里云的工程师们终于练成了一套九阳神功 Animate Anyone 算法。
用这套功法,可以轻松地把静态的人物图像转化成动画视频,甚至还能通过输入姿势的顺序,精准调控视频中的人物动作。
可这是在实验室的理想状态,等到了巴黎奥运现场,阿里云奥运智影时刻还上了一层 buff 。
比如一会大晴天一会大雨天,就这光线的变化就够 AI 喝一壶,而奥运比赛有着复杂运镜,相当于拿着放大镜看手脚的动作、观察脸上的表情,这也给 AI 带来了新挑战。
阿里云 AI 团队就又根据实际情况,整出了些新点子。
比如在前面的实验室里,生成图像全是 2D 图片来生成的 “ 纯电模式 ” ,到了巴黎现场,改成了 2D+3D 的混动模式,更精准地捕捉动作和表情。
然后再把前面 “2D+3D” 采集完的数据,用上了云端智能渲染技术,直接对环境光场进行快速解析。
得到的数据,又与云端实施的光线追踪技术无缝融合,约等于让真实的阳光晒进虚拟的场景。
就是这些技术上的努力,最后就有了阿里云奥运智影时刻在奥运场的爆火。
可以这么说,这次阿里云完全就是活该他火。
当然了,在这届巴黎奥运会上,除了阿里云奥运智影时刻外,阿里云还发了大力。
尤其在助力奥运会转播的道路,有着重大历史意义。
要知道,在此前的奥运会里,卫星转播从来都是全球转播的最大主力。
而今年,阿里云带队成功实现了反超,有 11000 小时的赛事直播画面在云上向全球分发,超过三分之二的全球信号是通过云上传播的,这是 1964 年东京奥运会开始卫星电视转播以来,又一次重大技术进步。
此外,阿里云带来的, AI 增强全新转播技术,也拥有了独特的高自由度回放系统。
比如可以在关键时刻进行定格,然后 “ 子弹时间 ” 般的回放。
比如在男子百米决赛上,最终差距只有 0.005 秒,还得是靠阿里云这套 “ 云上高自由度回放 ” 技术,几乎在直播瞬间,就让全世界观众,一眼看出冠军是谁。
这种技术,大大增强了观赛体验,获得了大家一致好评。
阿里云甚至还出手,帮忙修复了 100 年前巴黎奥运珍贵影像。
这一系列动作,引得国际奥委会主席巴赫,直接公开感谢阿里云的工作。
所以在本届奥运会上,阿里云凭借着深厚的技术实力,在为这个已经有 120 余年历史的国际盛事,注入了科技的力量,插上了云计算 AI 的翅膀。
可以说在技术上,无论是在助力奥运会云转播还是给观众塑造体验上,阿里云显然把这次奥运会当成了科技的赛场。
但在整个环节中,我们似乎并没有 “ 他们纯纯就是在炫技、秀肌肉 ” 的感觉。
他们很好地把技术和人结合在了一起:
要么为办赛人员提供技术支持;
要么为现场奥运迷丰富赛场活动;
要么为全世界各地的观众们升级观赛体验;
。。。
总之,一切的一切,其实都反映着阿里云的态度:科技是手段, “ 人 ” 才是目的。
正如乔布斯当年说过的: “ 光有科技是不够的,科技要与人文和人性结合,才能产生让我们的心为之歌唱的结果 ” 。
无疑,阿里云就是这么干的。
文章来自互联网,只做分享使用。发布者:走不完的路,转转请注明出处:https://www.dingdanghao.com/article/696114.html