不用双手就能打字的黑科技—

不用双手就能打字的黑科技——视觉追踪技术

传感器技术 | 2024-02-02 19:59:15 阅读：1819

著名科学家霍金教授生前因患有肌肉萎缩疾病，几乎完全瘫痪，既不能通过双手，也不能通过语言与外界沟通。因特尔研究院的技术专家经过长期努力，研发出一款环境感知辅助系统，最终有效改善了这位科学天才与世界的沟通方式。霍金使用的智能输入法，其里面就含有眼球追踪以及面部肌肉识别等技术，正是由于这项的技术的实现，让霍金打字或者演讲的效率提高了好几倍。

视觉追踪技术也称为眼动追踪技术，就是追踪眼睛的运动。准确来讲就是通过图像处理技术，定位瞳孔位置，获取瞳孔中心坐标，并通过某种方法，计算人的注视点，让电脑知道你正在看什么。

眼睛是心灵的窗口，透过这个窗口我们可以探究人的许多心理活动的规律。人类的信息加工在很大程度上依赖于视觉，来自外界的信息约有 80 %～ 90 %是通过人的眼睛获得的。因此对于 "人是如何看事物" 的科学研究一直没有间断过。关于这一点，对于眼球运动 ( 以下称眼动 ) 的研究被认为是视觉信息加工研究中最有效的手段。

眼动追踪技术属于机器视觉的一种技术，通过对眼动轨迹的记录从中提取诸如注视点，注视时间和次数，眼跳距离，瞳孔大小等数据，从而研究个体的内在认知过程。它利用软件算法、机械、电子、光学等各种检测手段获取受试者当前视觉注意方向的技术，通过图像传感器来捕捉到眼球的图像，根据图像的处理来识别每个人的眼球瞳孔里的特征，通过这些特征实时地反算出看屏幕的注视点。

眼动追踪技术的历史

早在19世纪就有人通过考察人的眼球运动来研究人的心理活动，通过分析记录到的眼动数据来探讨眼动与人的心理活动的关系。眼动仪的问世为心理学家利用眼动技术探索人在各种不同条件下的视觉信息加工机制，观察其与心理活动直接或间接奇妙而有趣的关系，提供了新的有效工具。

眼动技术先后经历了观察法，后像法，机械记录法，光学记录法，影像记录法等多种方法的演变。眼动技术就是通过对眼动轨迹的记录从中提取诸如注视点，注视时间和次数，眼跳距离，瞳孔大小等数据，从而研究个体的内在认知过程。

20世纪60年代以来，随着摄像技术，红外技术和微电子技术的飞速发展，特别是计算机技术的运用，推动了高精度眼动仪的研发，极大地促进了眼动研究在国际心理学及相关学科中的应用。

眼动追踪技术的发展

眼动追踪技术经历了从干扰式到非干扰式的发展过程。

干扰式眼动追踪技术

干扰式眼动追踪技术主要分为观察法、机械记录法、电流记录法和一电磁感应法等。它是在计算机处理能力比较低下的时代产生的。

观察法是通过人眼利用比较简单的记录设备直接观察受试者眼睛运动情况的方法。观察法装置简单，操作方便，但是由于是通过人眼进行观察，所以实验结果准确性很低。

机械记录法是指通过机械装置将人眼和记录设备连接起来从而完成对眼睛运动的跟踪。机械记录法装置比较复杂，操作很不方便，准确性低，而且对受试者的干扰比较大。

电流记录法的原理是基于眼球运动时角膜和视网膜之间存在的电位差。通过向在眼睛附近皮肤放置的装置导入电流，记录眼球运动引起的电流变化。眼睛的运动情况可以通过电流计或者示波器显示、电流记录法在当时的视线跟踪技术中精度比较高，但是与机械记录法一几样，电流记录法对受试者的影响比较大。

接触镜法是在眼睛上吸附一个专用线圈的****镜片，根据眼睛运动产生的感应电压，测量眼睛的运动。接触镜法精度在干扰式眼动仪中最高，但是需要麻醉人的眼睛，将实验用的设备吸附在眼球上，所以这种方法对受试者眼睛的影响最大，有一定的生理伤害。

非干扰式眼动追踪技术

非干扰式眼动技术主要采用的追踪方法主要有角膜反射法、巩膜一虹膜边缘法、瞳孔一角膜反射向量法等。

角膜反射法

角膜反射光就是角膜反射照射在其表面上的光线。光线在经过角膜反射后会形成一个亮点，即角膜反射光斑。在人眼中，角膜凸出于眼球表面，因此当人眼运动时，光线从各个角度射到角膜，得到不同方向的反射光，角膜反射光斑的位置也就随之在角膜上改变，利用眼摄像机拍摄眼睛运动的图像，记录角膜****光斑位置的改变，利用图像处理技术实时的得到虚像位置，完成视线的跟踪。这种方法主要用于眼动力学和注视点标定方面，但是头部误差较大。

巩膜一虹膜边缘法

此方法首先利用红外光照射人眼，在眼睛附近安装的两只红外光敏管用来接收巩膜和虹膜边缘处两部分反射的红外光。接收到的红外光会随着眼睛的运动而变化，当眼球向一侧运动时，虹膜就转向这边，这一侧的光敏管所接受的红外线就会减少;而另一侧的巩膜反射部分增加，导致这边的光敏管所接受的红外线增加。利用这个差分信号就能无接触的测出眼动。这种方法应用于眼动力学、注视点标定方面，它的水平精度较高，垂直精度较低、干扰大、头部误差大。

瞳孔一角膜反射向量法

首先利用眼摄像机拍摄眼睛图像，接着通过图像处理得到瞳孔中心位置。然后把角膜反射点作为眼摄像机和眼球的相对位置的基点，根据图像处理得到的瞳孔中心即可以得到视线向量坐标，从而确定人眼注视点。这种方法基本上应用于注视点标定方面，精度较高，干扰也比较小，头部误差也较小，这个方法也是现在眼动追踪技术中使用最广泛的方法。

基于数字视频并结合瞳孔/角膜反射的眼动测量法

由于计算机处理器速度的增加和计算机视觉技术的改进，眼动跟踪制造商已经开发出了第四代设备。

通常情况下，最理想的眼动跟踪输出类型（例如，人机交互可用性研究）是对观察者注视点投影的估计，即用户视线在计算机显示器上的（x，y）坐标。第一代和第二代眼动仪一般不提供这种类型的数据。（对于第二代系统，眼动分析依赖于人对图像或视频帧离线的、一帧一帧地肉眼观察，因此，很难轻易地完成POR的计算）。

基于视频瞳孔/角膜反射原理实现的眼动仪在经过标定之后，很容易提供POR坐标，这已成为当代眼动仪基本功能。由于快速模拟数字视频处理器的使用，第三代眼跟踪仪能够提供实时完成POR计算。

近年上市的第四代眼动追踪设备使用了数字光学器件，由于使用了集成的数字信号处理器（DSPs），眼动跟踪技术在降低成本的同时，其易用性、精确性和处理速度获得了显著地提高。

基于瞳孔角膜向量反射技术基于3D眼球模型的视觉跟踪，实时追踪用户的视线；当用户坐在电脑前盯着屏幕时,系统应能实时检测出用户正在凝视着屏幕上的哪一点，从而可判断出用户当前的兴趣或目的。

瞳孔角膜反射技术 (PCCR)

首先，通过一些校准程序，找出瞳孔与耀点组成的向量与屏幕注视点之间的映射函数，然后通过检测瞳孔耀点向量的变化量，实时跟踪出人在屏幕中所凝视的兴趣点。遗憾的是这个映射函数对于头的位置是非常敏感的，如果在观测期间头的位置发生大的变化，精度就会急剧下降。不过，可以采用一种头部动态补偿模型，通过两个相机对头部的三维定位，然后采用算法实时更新这个映射函数，这样就能保证在头部自由移动的情况下仍能达到较好的跟踪效果。

3d视觉跟踪系统

首先将眼睛看成一个眼球模型，通过相机拍摄获得的眼睛图像中的瞳孔和耀点信息重构出人的视线轴（即人所注视的方向），然后用此轴与3D屏幕相交，得到正在关注的注视点。

由于这个视线轴的方向与头部的位置变化是相对独立的，因而能很好的解决2D模型中头部位置不能变化的限制，保证了在自由头动的情况下仍能达到很好的跟踪精度。

使用瞳孔和角膜反光图像来估计视线的方向是常用的比较精确的方法 ,在已经开发出的视线跟踪仪原型或者商品中很常见。使用合适的标定程序 ,这些眼睛跟踪器可以测量空间中一定

位置处三维表面上的观察着的“注意点”。目前 ,研究的方向集中于精确的、鲁棒的检测和方便容易的标定。

眼动追踪技术的主要模块

校准模块

由于视网膜中心不完全在眼球几何轴线上，所以视线方向与眼球光轴存在一定的夹角。视线方向与眼球光轴在水平方向夹角大约为5度，左眼为5度，右眼为-5度，竖直方向夹角大约为1.5度，不同的使用者之间最大存在3度的差异，所以使用时需要标定其kappa角：具体步骤如下：

1）使用者注视屏幕上固定点Pe，同时根据上一过程计算出光轴方向OP0。

2）连接眼球中心O和固定点Pe，得出视线方向OPe

3）分别求出视线和光轴两直线的方位角

当眼睛注视各点时，测量相应的瞳孔与光斑间位置相对偏移量，然后确定眼睛转动引起的注视点变化与偏移量间存在的映射关系。

由于人眼形状，大小，结构，存在个体差异，眼睛球面上的点在摄像机参照系中的投影点位置和眼睛转动角度之间存在非线性关系，并且视线估计方向与真实视线方向有模型误差，所以视线跟踪系统需要校准环节。

在开始记录眼动数据前，用户将首先进行校准过程。在此过程中，眼动软件系统会测量用户眼睛的特征并利用这些与内部的眼球模型结合计算凝视数据。此模型包含了眼睛不同部分（如角膜，中央窝位置等）的形状，光线折射与反射信息。在校准过程中，用户需要观察屏幕上特定位置出现的点，此点被称为校准点。在此期间，眼动仪会对采集到的几幅眼睛的图像进行分析。然后分析的结果信息会与眼球模型结合并计算出每幅图像的凝视点。在校准过程中用户不需要将头部完全保持静止，只要令视线的焦点跟随移动的校准点移动即可。在校准时眼动仪会使用明瞳和暗瞳两种方式进行测试以识别最适合当前光线条件和用户眼睛特征的追踪方式。

在标定过程中 , 用户被要求将自己的注意点凝视在屏幕上一些已知的目标上 , 从而获得一个对应点的集合。

图像采集

图像采集模块将来自一个或者多个传感器的输入信号转换成某种适合的信号模式。通常 ,使用红外照相机拍摄一副眼睛的图像 , 并抓取适当解析度 ,比如 640 ×480的图像。为了减少噪声和处理代价 , 也可以选择生成更小的图像。

另外 ,对于特殊硬件的系统 ,图像采集模块负责将视频信号拆解开 ,分别生成亮瞳孔和暗瞳孔图像。

明瞳追踪，即光源与成像设备在同一条光学路径上，使瞳孔出现发亮的效果(这与相片中出现的红眼现象相同)；

暗瞳追踪，即光源放置在成像设备较远的位置(不在同一条光学路径上)，产生瞳孔比虹膜暗的效果（明显的对比）。

通常 ,红外光源的轴线和照相机镜头同轴时会产生亮瞳孔效应 ; 反之 , 在两者不同轴时 , 瞳孔比眼睛的其他部分更暗一些。

红外光源

瞳孔和虹膜之间的分界线并没那么清晰，为了提高这一步的精准度，交替用不同方位的光源向人眼发出近红外线，然后在每两帧相邻的图像中，获取用户暗淡的瞳孔，从而更清晰地“抠”出瞳孔，再计算瞳孔的质心和形状等参数。

之所以要用近红外线，是因为人眼无法察觉到，不至于晃眼，影响用户。这些光束很弱，只要研究者按照眼动仪说明书上指示的距离安排用户就坐（比如离眼动仪60cm以上），用户即便在工作的眼动仪前待8个小时也不会有放射性危险。

眼图处理

该模块基于数字眼动视频对眼球图像进行处理。从采集到的眼图中提取瞳孔中心坐标和角膜反射光斑中心坐标。首先，探测瞳孔轮廓以及获得特征点，然后验证拟合瞳孔轮廓，确定瞳孔中心坐标。由于瞳孔中心坐标是后续工作的基础，因此在该系统中，尤其是瞳孔中心坐标的提取环节，定位算法的优劣将直接并严重影响整个眼动跟踪系统的精确度。同时还要对眨眼或眼睑遮蔽瞳孔的情况作处理。

瞳孔定位

为了确定瞳孔和角膜高光的位置 , 首先使用红外照相机拍摄眼睛的图像 ,然后对红外图像进行分割 , 并对得到的眼睛各部分进行分析参数化。通常 , 先对眼睛图像进行灰度化处理 , 然后使用阈值的方法或者搜索眼睛图像中的连通区域的方法实现对瞳孔的检测。

在检测到候选瞳孔后 , 使用人体测量学的方法对瞳孔进行确认。然后对瞳孔进行参数化处理,以消除睫毛、下眼皮和普金野图像等对瞳孔区域的覆盖而产生的影响。双椭圆拟和方法可以很好地消除这些噪声。

首先要大致确定出瞳孔中心点的位置和瞳孔半径，进行瞳孔粗定位，为下一步精确计算瞳孔中心坐标提供基础。在粗定位瞳孔的基础上，检测瞳孔边缘，然后拟合瞳孔轮廓，最终确定瞳孔中心的精确位置。

眼动追踪技术对VR的作用

我们很容易看到眼动追踪对VR头显的作用。显而易见的是，它可以大幅度提高头显性能，支持头显自动化调整，并且提供更详细的分析。不太明显的是，它可以改善用户界面并实现新的交互水平。

提高头显性能

眼动追踪最为直接和最有前景的作用是，通过注视点渲染来提高设备的性能。尽管我们无法感知这一点，但实际上人眼只在注视点区域以高分辨率渲染真实世界影像。其余部分只是模糊的轮廓，纹理和颜色，而我们的大脑则以更清晰的细节进行“填充”。

注视点渲染依靠这个概念来减少VR体验的整体像素数量。系统只会以全分辨率呈现用户注视点区域内的内容，并略微降低外围视觉的内容质量，同时在你转移注视点时迅速重新调整。

尽管这项技术不仅只是可以作用于配备眼动追踪的头显，但眼动追踪技术确实可以令注视点渲染变得更加高效和准确。

注视点渲染的真正价值在于它可以将GPU负载降低30％到50％。这意味着低端头显也能够运行对性能要求十分苛刻的VR内容。这同时意味着头显可以设计成更小更便携，提高续航能力，以及在更低带宽下实现更高的保真度和帧速率。这对内容创作者而言都是好消息。

头显自动调整

眼动追踪也可以用来自动调整头显的设置。扫描用户眼睛并立即加载他们的虚拟角色，更重要的还有调整瞳孔间距离（某人眼睛之间的距离）。

自动调节意味着用户可以减少调节IPD时的猜测，并且可以为用户眼睛提供优化的图像。换句话说，创作者无需付出太大努力画面就会变得越来越好。

精确的分析

今天，沉浸式内容的热图分析依赖于你所面向的方向，而不是说你的注视点位置。除了准确了解用户的位置外，你还可以通过追踪瞳孔来测量用户的参与度。当我们看到自己喜欢的东西时，瞳孔就会扩张。这种微小的变化也可以用来检测情绪和精神压力。

这种洞察力可以帮助我们制作更好，更有吸引力的故事，甚至根据用户行为提供个性化的叙述。

更自然的用户界面

今天我们主要是通过不自然的行为来控制体验。转动头部，令光标指向我们想要前往的位置，然后点击控制器进行传送。我们的头部成为了一个导航体验的笨重光标。对于大多数曾经用这种方式进行游戏的人来说，你应该都明白这种不自然的方式是多么地令人感到沮丧。

眼动追踪可以将这个四步过程分为两步：看，点击。这意味着VR中的每一次交互都会更加自然，更加流畅，速度更快，学习曲线更短。

全新的交互水平

在叙事VR中，沉浸感的其中一个规则就是眼神交流。

一般会经常要求受访者在采访时直接看着摄像头，从而与观众进行“眼神交流”，就如同一位好的对话者会与听众建立眼神交流那样。即使是预定的，但这仍然有助于建立一种临场感。眼动追踪可以令这一点变得更具交互性和逼真。这有可能以数种形式出现，包括注视激活的体验和注视敏感的体验。

注视激活的体验意味着观众可以通过盯着某件事物来触发行为。只有当你看着他们的时候，他们才会开始说话。这可以更容易地确保观众不会错过重要的时刻，并为他们提供更好的控制。

除了注视激活的体验外，眼动追踪还可以通过更自然的社交互动来实现基于注视敏感的交互度。我看着别人，他们也看着我。我转身走开，他们也转身离去。

眼动追踪还可以使VR体验中的角色带来更逼真的面部表情：眨眼，扬眉。根据用户的眼睛活动，这甚至可以触发不同的剧情。

眼动追踪技术的其它应用领域

眼动跟踪技术可提供人与机器更加方便、快捷、自然的交互方式。在航空飞行中，飞行员通常使用仪表、平面显示器以及更为先进的头盔显示器来接收信息，实现对目标的动态锁定。当飞行员头部转动时，光电设备或电磁设备能实时记录并计算出飞行员头盔的角度来调整视野范围，并自主跟踪目标，实现视景显示与目标跟踪的随动。但在高过载条件下，转动头部十分困难，还易损伤颈部。使用眼动跟踪技术的头盔，能够用眼睛转动代替头部转动，通过实时测定飞行员眼睛瞄准线的方向，观瞄系统能更加快捷地跟踪、锁定目标，从而提高飞行员的反应速度。目前，眼动跟踪技术作为头盔瞄准具的重要功能模块，已经在新一代战斗机、新型飞行员头盔中投入使用。

飞行员或航天员需要操作和管理复杂的控制系统，在执行重要任务时，既要用眼睛观察周围环境，又需要细致地注视控制系统完成精确的控制动作。利用眼动跟踪技术能够评估飞行员或宇航员在操作时如何分配注意力，读懂人与机器互动的“习惯”，可以更加科学地设置仪表、屏幕、按钮等显示和控制系统，实现最佳的人机交互效果。

此外，眼动跟踪技术还可应用于心理学、医学、产品测试、体育运动、汽车驾驶等多个领域。例如：利用眼动跟踪技术探索人在信息获取过程中的心理活动和心理现象；监控汽车驾驶员的眼睛运动情况，防止疲劳驾驶；通过跟踪眼睛视线向计算机输入对应的数据或发送指令，从而控制电脑的操作系统，帮助只能控制眼睛肌肉的重度残疾者进行控制、通信、娱乐等。

另外，在智能手机、计算机、具有人机交互功能的家用电器、游戏等领域，眼动跟踪技术能够解放双手，通过“眼神”来操作相应的系统和设备。

- END -

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。