微软专利介绍如何将手势识别适配不同AR/VR场景中

　　XR设备可以提供各种XR用户交互。一种交互方法是可穿戴设备使用机器视觉检测用户的手指/手部及相关的手势，然后将其解释为命令。

　　但是，情景千千万万，而不同情景的操作命令同样数不胜数，所以设备需要定义千千万万个手势命令，而用户又需要学习千千万万的命令吗?有没有可能说，同一个手势在不同情景中可以智能地解读成特定的命令呢?比如说V字手势在幻灯片播放中解读成下一张，而在电视手势中则解读成快进呢?

　　在名为“Extended reality gesture recognition proximate tracked object”的专利申请中，微软主要介绍了相关的手势识别过程。具体来说，当存在被追踪对象时，识别位于被追踪对象附近的手势识别。例如当XR用户在操作呈现幻灯片的投影仪屏幕时，投影仪屏幕属于XR系统追踪的一个被追踪对象，然后XR系统可以识别位于投影仪屏幕附近的用户手势，并相应地执行相应的操作。

　　图1是一个XR系统实施例。如图所示，XR系统100包括XR设备101，XR设备101可包括摄像头102、麦克风114和处理电路118。处理电路118可执行操作对象识别和追踪操作104，手势识别操作106、图像呈现操作108、情景识别操作116、语音识别操作112和输出操作110。麦克风114、摄像头102中的一个或多个，并且存储器122可以通信地耦合到处理电路118。网络120可以通信地耦合到麦克风114、摄像头102、存储器122和处理电路118中的一个或多个。操作可以由处理电路118执行代码，操作专用硬件或其组合。

　　摄像头102可以将摄像头102的视场中的场景转换为图像数据。摄像头102可以包括深度摄像头、强度摄像头等。深度摄像头提供对深度摄像头视场中对象距离的测量。深度测量通常使用飞行时间(ToF)进行。强度摄像头捕获强度数据，例如红色、蓝色、绿色、黄色、灰度、黑色、白色、红外、热、其组合等。

　　对象识别和追踪操作104可以检测或识别图像数据中的对象。对象识别和追踪操作104可以从图像数据中描绘对象，例如在摄像头102的视场或图像数据中将对象与周围环境隔离。对象识别和追踪操作104可以使用基于外观的方法或基于特征的方法中的至少一种，以及其他方法来检测、识别或描绘对象。

　　基于外观的方法通常包括将对象的表示与图像数据进行比较，以确定对象是否存在于图像中。基于外观的对象检测方法的示例包括边缘匹配、梯度匹配、颜色(例如灰度)匹配、图像点关系的直方图、模型基方法或其组合等。边缘匹配方法可包括边缘检测方法，其包括与已知对象的边缘模板的比较。颜色匹配方法可以包括将来自图像数据的对象的像素数据与参考对象的先前确定的像素数据进行比较。梯度匹配方法可以包括将图像数据梯度与参考图像数据梯度进行比较。

　　目标跟踪是随着时间的推移定位移动对象的过程。目标跟踪的目标是在连续(或每N个，其中N>1个)视频帧中关联一个对象。一些跟踪技术包括基于核的跟踪和轮廓跟踪。在基于核的跟踪中，迭代定位过程最大化表示帧之间相似性的相似性度量。在轮廓跟踪中，前一帧的轮廓被迭代地进化到当前帧中的新位置。轮廓跟踪方法可以最小化轮廓能量，例如使用梯度下降。

　　手势识别操作106可识别图像数据中的身体部位，例如手、手指、手臂、腿、头、臀部和脚等，并确定其运动。所述运动可用于确定是否执行了可识别的手势。身体部位运动的确定可以在对象追踪中执行，例如通过对象识别和追踪操作104执行。手势识别操作106可以处理在线或离线的手势。在线手势通常是用于修改对象的直接操纵手势，而离线手势是在与对象交互后处理的手势，例如激活菜单屏幕。

　　手势识别操作106可以使用三维或二维识别方法。通常，二维识别方法比三维方法需要更少的计算机资源来执行手势识别。手势识别操作106可实现基于骨架的方法或基于外观的方法等。基于骨骼的方法包括将身体部位建模为一个或多个分段以及分段之间的一个或多个角度。基于外观的模型包括使用身体部位的模板，并将该模板与图像数据进行比较，以确定基本上匹配该模板的身体部位是否出现在图像数据中。

　　图像呈现操作108可以修改图像数据，例如增加图像数据并提供AR图像。图像呈现操作108可以基于来自存储器122的数据、对象识别和追踪操作104、手势识别操作106、语音识别操作112、情景操作116或其组合来改变图像数据。

　　例如在图2中，用户220穿戴XR设备101。摄像头102包括由一对虚线表示的视场228。在视场228中，手势由手222执行。手势在被追踪对象224附近执行。在图2的示例中，被追踪对象224操作由联网设备226控制。

　　对于图2，可以假设联网设备226是投影仪，被追踪对象224是投影仪屏幕。如果佩戴XR设备101的用户220正在查看屏幕上的投影图像，并且屏幕是被追踪对象，则可以将用户的特定手势识别为表示“移动到下一张幻灯片”的命令。在执行所述操作时，手势识别操作106可以识别图像数据中的手势，对象识别和追踪操作104可以识别和追踪屏幕，情景操作116可以确定手势接近屏幕，情景操作116可以基于存储器122中的数据确定要执行的操作，本例为“移动到下一张幻灯片”。输出操作110可以向联网设备226提供命令，并致使联网设备226执行所述操作，亦即移动到下一张幻灯片。

　　延伸阅读：Microsoft Patent | Extended reality gesture recognition proximate tracked object

　　名为“Extended reality gesture recognition proximate tracked object”的专利申请最初在2020年2月提交，并在日前由美国专利商标局公布。

微软专利介绍如何将手势识别适配不同AR/VR场景中

推荐文章