微软专利提出AR/VR中声音的定位和可视化方法_科技魔方-读懂科技做科技极客

　　患有轻度到重度听力障碍的人群数量并不少。通常，听力受损人士依靠视觉等其他感官来解释周遭的环境。但是，注意视场之外的事件可能特别具有挑战性。另外，即便是听力正常的人士，噪杂的环境同样对其提出了挑战，使其难以发现重要的声音信号，特别是专注于需要全神贯注的任务时。

　　在名为“Localization and visualization of sound”的专利申请中，一直专注于无障碍技术的微软提出了一种定位和可视化声音的方法，从而帮助用户感知视场之外的重要和/或危险声音。

　　专利描述的电子设备搭载用于接收音频信号的声音换能器、显示单元、处理单元和存储器。在一个实施例中，储存器存储致使处理单元执行多个功能的指令。其中，所述功能可包括分析由声音传感器接收的音频信号，以确定所接收音频信号的源的位置方向;确定源的位置方向是否位于电子设备用户的视场之外;以及响应于确定源的位置方向落在电子设备用户的视场之外，在显示单元呈现源的视觉表示。在一个实施例中，在用户视场内的虚拟表面呈现源的可视表示。

　　在一个实施例中，可以分析声音信号以识别声音的强度，并确定是否至少部分地基于强度的标识来可视化声源。可在一个实施例中，在用户视场内的虚拟表面呈现源的可视表示。

　　在一个实施例中，可以利用机器学习(ML)来优化解决方案。例如，可以使用ML模型生成的数据对系统进行训练，以识别声源并确定声源、声强、位置和危险以及/或者声源重要性之间的关联。这种训练可在积累、审查和/或分析大量用户数据后进行。这样的用户数据配置为向ML算法提供初始或正在进行的训练集。另外，在一个实施例中，用户设备可配置为将在使用相关应用期间捕获的数据传输到本地或远程ML算法，并提供可用于微调或提高ML算法有效性的补充训练数据。补充数据同时可用于改进未来应用版本或当前应用程序更新的训练集。

　　简单来说，系统可以根据声音换能器和处理单元来判断声音源的位置，若是声音源位于用户视场之外，则可以通过头显显示对应的视觉表示，从而帮助用户判断声音的来源。

　　微软指出，所述技术解决方案提供了一种用于识别用户视场之外的重要声源，并以有效引起用户注意的方式将其可视化的有效机制。

　　图1中的示例环境100可以包括佩戴头显170的用户110。用户110可以是患有听力损伤的人士和/或当前处于噪声环境中的人士。在一个实施例中，用户110可以仅仅是佩戴头显170的普通用户。在一个实施例中，头显170生成沉浸式环境。沉浸式环境可指虚拟现实、增强现实和/或混合现实环境。头显170可以在沉浸式环境中显示一个或多个虚拟对象。在一个实施例中，用户可与所述虚拟对象交互。虚拟对象可以包括一个或多个在沉浸式环境中可移动的全息图。

　　无论是由于听力损伤、高噪声水平和/或沉浸式环境引起的分心，用户110都可能难以从周围环境中发现特定的声音。然而，由于用户依然可以看到位于用户视场内的数字可视化表示，所以这可以帮助用户判断声源和/或知晓所述声音的存在。例如，如果用户110听不到摩托车180，则用户110依然可以通过视觉表示来意识到其存在。结果，用户110可以及时作出反应以避免潜在事故。

　　对于声源120，由于声源120位于用户视场之外(例如在用户110后面)，如果用户110听不到声源120靠近(例如听不到卡车鸣笛)，则用户110不太可能意识到声源120。这可能非常危险，尤其是在拥挤的环境之中，如高危工厂或建筑工地。

　　为了帮助用户110意识到在用户视场之外的重要和危险声源，头显170可以生成声源的视觉表示160。这可能涉及识别对用户110重要的声源，例如哭闹的婴儿、在用户身后说话的同事、门的打开或关闭、用户电话铃声的声音、从用户后方接近的移动车辆、掉落碎片的声音或机器发出的警报等等。

　　一旦识别出用户视场之外的重要声源，则可由头显生成声源的视觉表示160并将其显示在诸如虚拟表面130的虚拟表面之上。

　　虚拟表面130可以显示在与声源120位置相对应的位置。例如，虚拟表面130可以显示在从视觉表示160到用户的距离与从声源120到t的距离成比例的位置。在一个示例中，这是通过在头显170显示视觉表示160来实现，并使得视觉表示160看起来与声源120距离用户110相同。例如，当声源120在用户110后面15英尺时，视觉表示160似乎在用户前面15英尺。上。

　　在一个实施例中，视觉表示160是与声源形状相对应的全息对象。例如，当声源120是卡车时，卡车全息图可作为视觉表示160。另外，虚拟对象可用于表示声音强度(例如响度)。在一个实现中，虚拟对象140包括围绕视觉表示160绘制的圆圈。

　　在一个示例中，圆圈的数量表示声音的强度。例如，声音越大，围绕视觉表示160绘制的圆圈就越多。在一个实施例中，颜色用于表示声音强度。例如，红色圆圈可能表示声音非常响亮，而黄色圆圈可能表示声音中等响亮。在一个实施例中，圆圈的数量和/或颜色可以随着声源120相对于用户110的移动而改变。例如，如果声源120正在更靠近用户110(在这种情况下，声音强度会增加)，虚拟对象140中的圆圈的数量可以增加和/或颜色可以改变以通知用户危险程度的增加。

　　名为“Localization and visualization of sound”的专利申请最初在2020年5月提交，并在日前由美国专利商标局公布。

微软专利提出AR/VR中声音的定位和可视化方法

推荐文章