未来人与人的交流,难道是这个样?
chatdirector 通过空间化视频头像、虚拟环境和自动布局转换,构建了一个拟真的虚拟环境。
-
DC1、通过空间感知可视化增强虚拟会议环境。处于同一个空间对于改善视频会议体验来说至关重要。好用的系统应采用典型的面对面会议形式,将与会者安排在指定座位的桌子周围,构建切实的共同存在感和空间定位感。 -
DC2、不能简单复制现实会议,而需要提供语音驱动的协助。鉴于小组对话中发言人频繁更换、话题快速转换,系统应提供额外的数字功能,让参与者跟进对话流程并积极参与会议。 -
DC3、重现面对面互动的视觉效果。在开虚拟会议时,参与者通常在电脑前保持静止。系统应增强他们在屏幕上的动作,以模仿头部转动和眼神接触等动态身体动作,这些动作可作为更有效地跟进对话的提示。 -
DC4、尽量减少认知负荷。系统应避免同时显示过多信息,或要求用户频繁操作。这种方法有助于防止分心,并允许参与者更有效地专注于倾听和说话。 -
DC5、确保兼容性和可扩展性。系统应与标准视频会议设备(如带摄像头的笔记本电脑)兼容,以促进广泛采用。这种兼容性还将促进其他生产力功能和工具(如屏幕共享和其他应用程序)的无缝集成,以增强系统的整体效用。
-
附带由 Web Speech API 识别的语音文本的音频输入 -
由 U-Net 神经网络推断的 RGB 图像和深度图像。
ChatDirector 的系统架构。
一个本地用户对具有 3D 肖像头像的空间感知视频会议环境的视角。
-
静默:与会者正在听取他人发言; -
与某人交谈(Talk-to):与会者正在与特定人交谈;具体来说,通过侦测参与者的姓名(当他们加入会议室时所输入的结果)来检测使用是否在与某人交谈。 -
宣布(Announce):与会者正在向所有人发言。通过使用关键词检测(如「everybody」、「ok, everybody」),Web 语音 API 来进行识别此种类型的语音状态。
-
「一对一(One-on-One」,仅显示一个远程参与者,以便与本地用户进行直接互动; -
「两两对话(Pairwise)」,将两个远程参与者并排排列,表示他们的一对一对话; -
「全景(Full-view)」,默认设置显示所有参与者,表示一般讨论。
ChatDirector 的布局转换算法。 算法输出:布局状态。从左至右分别为:一对一(One-on-One)语音状态,两两对话(Pairwise)语音状态,全景(Full-view)语音状态。
会议环境的空间感知和语音驱动布局转换算法的用户研究结果(N=16)。( *:p
Temple Presence Inventory(TPI)结果显示了 ChatDirector 系统的社交存在评级(N=16)。( *:p
以上就是2D头像生成3D虚拟人开视频会,谷歌新作让人难绷的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:走不完的路,转转请注明出处:https://www.dingdanghao.com/article/558962.html