科技魔方

微软专利为手机、电脑、AR/VR等不同设备及网络环境改善优化视频会议体验

AR/VR

2023年08月09日

  视频电话会议的功能越来越丰富。但由于支持硬件的异构性,挑战开始随之出现。例如,用于先进设备,大屏显示和高网速的用户可以访问功能丰富的远程会议体验,但对于拥有旧式设备,小屏显示和慢网速的用户,访问相关的功能体验会导致技术性能不佳,包括显示屏混乱、过度延迟、视频停滞、变得断断续续或音频不同步等等。

  针对这个问题,微软在名为“Optimizing richness in a remote meeting”的专利申请中提出了一种解决方案,并旨在为不同网速,不同显示屏尺寸,不同处理器性能的用户提供更好的视频会议体验。

  相关方法的核心是在高粒度上评估用于访问远程会议体验的每台计算机设备的功能。利用相关信息,计算可能纳入远程会议体验的一系列功能组合中的每一种的预期流动性水平,即技术平滑度。

  通过考虑每个会议参与者计算设备的能力,系统可以自动选择将提供最丰富体验的功能组合,使其达到或超过令人满意的流动性水平。通过这种方式,每个与会者都能获得最好的体验,但不受硬件的限制。

  图1显示了由多个会议参与者12共享的远程会议体验10。会议体验属于“远程”,因为并非所有的参与者都在同一个地点。每个与会者都是相应与会者计算机设备的用户和操作员,包括PC、平板电脑、智能手机和AR/VR等设备都可以用于访问会议体验。

  转到图2,每个会议参与者的计算机设备14都包括一个显示器16、一个摄像头18、一个扬声器20和一个麦克风22。

  通过客户端应用程序28提供的远程会议体验的访问包括一种或多种入站访问模式和/或一种或多种出站访问模式。

  入站访问模式是将数据接收到计算机设备14中的模式;出站访问模式是从计算机设备传输数据的一种模式。可用的入站访问模式可以包括一个或多个远程会议参与者的视频和/或音频的实时表示。

  在一个入站访问模式中,视频和/或音频以可用的最高保真度呈现,在其他入站访问模式中,保真度降低。当应用于视频时,“保真度”包括帧率、分辨率和/或颜色深度。当应用于音频时,“保真度”包括采样率和/或比特率。

  特定入站访问模式包括仅实时呈现视频的前景部分,背景部分在计算机设备14进行本地重构。特定入站访问模式包括呈现一个或多个会议参与者的本地渲染动画,例如Avatar。动画可以根据面部标记和/或骨骼坐标在本地为任何、部分或所有会议参与者生成,以便实时下载到计算机设备。

  特定入站访问模式包括通过计算机设备上提供的文本界面进行入站会议内聊天。特定入站访问模式包括接收来自会议体验的音频的实时转录。特定入站访问模式包括基于转录呈现来自一个或多个会议参与者的本地重构语音。特定入站访问模式包括与会者之间的屏幕或文档共享。

  实际上,在一台给定的计算机设备上,通过客户端应用程序,可以获得一系列访问远程会议体验的模式。访问模式的特定组合提供附加的好处,而其他组合可能冲突或多余。因此,客户端应用程序28配置为提供基于计算机设备14的能力和/或基于其用户的偏好的相互兼容的访问模式的特定预定义组合。在这样做的过程中,客户端应用程序提供了对会议体验的不同变体或不同级别的访问,这对应于不同的“访问选项”。

  在一个实施例中,可以从入站访问选项菜单中选择一个访问选项,并且可以从出站访问选项菜单中选择另一个访问选项。入站访问选项是控制接收到计算机设备14的数据的选项,而出站访问选项是控制从计算机设备传输的数据的选项。

  图3示出了入站访问选项30的示例部分菜单,图4示出访问选项32的示例部分菜单。每个菜单都是按照从上到下“丰富度”递减的顺序列出。每个菜单顶部的访问选项提供了比底部选项更丰富的会议体验。

  每个访问模式都可以用丰富性度量来表征,并指示访问模式对会议体验贡献的相对丰富性级别。类似地,每种访问模式可以用开销度量来表征,并指示访问模式所需的相对计算费用,例如网络带宽和处理周期等。

  在图3中,入站接入选项30A将所有可用视频实时呈现,包括屏幕和文档共享为视频。因此,与图3中的所有选项相比,入站访问选项30A具有最高丰富度水平,并且入站访问选项30A具有最大开销度量。

  入站访问选项30B提供会议参与者的所有可用视频的表示,但使用快照共享文档。入站访问选项30C与选项30A和30B的不同之处在于,屏幕或文档共享只能通过静态下载获得。

  入站接入选项30D以降低(例如75%)帧速率提供所有视频的呈现。入站访问选项30E以降低(例如50%)的显示分辨率提供所有视频的呈现。入站访问选项30F以减少(例如25%)的色深显示所有视频。入站访问选项30G实时呈现所有可用的前景视频,并且保真度很高,但需要对背景进行局部重建。

  特定入站访问选项拒绝至少特定可用的实时视频,而是使用动画来表示一个或多个会议参与者。例如,入站访问选项30H只提供主演示者的前景视频显示。基于实时下载到用户计算机设备上的会议参与者的面部标记和/或骨架坐标,本地为其他会议参与者生成动画。

  入站接入选项30I与入站接入选项30H的不同之处在于,没有到场的与会者的演讲不是实时下载到用户的计算机设备,而是基于会议音频的实时转录在其上进行重构。

  入站接入选项30J包括以动画形式实时呈现所有会议参与者,并暂停下载会议音频的实时转录。入站访问选项30K只实时提供音频演示,并要求记录结束的会议体验,包括视频。入站访问选项30L为用户暂停实时会议体验,并请求结束的会议体验的转录。

  因此,入站访问选项30L具有丰富度度量,指示与图3中的所有选项相比的最低丰富度水平,并且与图3中的所有选项相比,入站访问选项30L表明开销最小。其他入站访问选项具有介于入站访问选项30A和30L之间的费用度量和丰富度度量。

  在图4中,出站接入选项32A提供实时上传来自用户计算机设备的所有视频,包括以视频形式上传共享文档。因此,出站访问选项32A具有丰富度度量,指示与图4中的所有选项相比的最高丰富度水平;与图4中的所有选项相比,出站访问选项32A具有指示最大费用的费用指标。

  出站访问选项32B提供用户视频的上传,但使用快照共享文档。出站访问选项32C与选项32A和32B的不同之处在于,只有通过静态上传才能启用屏幕或文档共享。出站访问选项32D提供以降低帧率上传用户视频。出站访问选项32E提供以降低的显示分辨率上传用户的视频。出站访问选项32F提供以降低颜色深度上传用户视频。

  出站访问选项32G提供用户前景视频的实时上传,并且保真度很高,但需要远程重建背景。其他出站访问选项拒绝实时视频上传。例如,出站访问选项32H提供实时上传用户的面部标记和/或骨骼坐标,以支持用户的动画。出站访问选项32I提供用户语音转录的上传,以支持实时语音重建。

  选项32J提供在会议结束时上传用户录制的视频和音频。选项32K提供在会议结束时上传用户录制的音频。选项32L为用户暂停实时会议体验,并在会议体验结束时提供用户音频贡献的上传转录。

  因此,出站访问选项32L指示与图4中的所有选项相比的最低丰富度水平,以及开销最小的度量。其他出站访问选项具有介于出站访问选项32A和32L之间的费用指标和丰富度指标。

  在图在3和4中,访问选项是从两个或多个不相交的菜单中选择,可以将兼容访问选项的每个组合映射到一个新的集合,其元素对应于这样的组合。在这样的例子中,组合本身就是“访问选项”。

  给定类型的各种访问模式以不同的开销,提供不同的丰富度水。因此,对于每个特征类型,可以根据其对丰富性的总体贡献和对开销的单个贡献来选择访问选项。可以选择所选访问模式的总体组合,以最大限度地提高所提供的会议体验的丰富性和流动性。

  图5显示了提供对远程会议的访问的示例方法46。

  在48,客户机应用程序在用户的会议参与者计算机设备启动。所述操作可以使用户发起新的会议体验或加入现有的会议体验。

  在50,客户端-服务器系统的评估模块评估用户计算机设备的一项或多项与计算机设备用户所感知的会议体验的流动性有关的能力,例如网络上传速度、处理器速度和处理器核数。

  在可选步骤52中,可以根据用户喜好排除一个或多个访问选项。例如,即便用户的计算机设备能够高速下载,他/她都可能不想看到其他会议参与者的脸。在这种情况下,参照图3,可以排除入站访问选项30A至301。

  在54,客户机-服务器系统的选择模块根据所评估的一种或多种能力选择一组访问选项,其中包括在计算机设备上可实现的用于访问远程会议体验的相互兼容的访问模式的组合。

  在62,客户端-服务器系统的配置模块配置客户端-服务器系统,使会议参与者的计算机设备能够使用所选择的访问选项集访问远程会议。

  在64,客户端-服务器系统34的网络模块在服务器36和计算机设备14之间交换可能需要的任何数据,以支持根据所选的访问选项远程访问会议体验。

  名为”Optimizing richness in a remote meeting“的微软专利申请最初在2022年2月提交,并在日前由美国专利商标局公布。

+1

来源:映维网

延展资讯