视觉听觉触觉在人机交互中的应用

计科1101 11281004 郭珣

摘要：人机交互技术是指通过计算机输入、输出设备, 以有效的方式实现人与计算机对话的技术。现在多数软件的交互设备还限制在鼠标、键盘、触摸屏、显示器等基本的输入输出设备上，为了是用户更加方便快捷地进行操作. 在这里, 主要讲述三种感官在人机交互中的运用, 如何借助计算机模拟的视觉听觉触觉能力来实现更加方便高效的人机交互. 关键词：人机交互交互设备计算机视觉听觉触觉

人机交互界面, 是系统面向用户的部分, 用户通过人机交互界面与系统交流, 是计算机系统向用户提供的综合操作环境, 是计算机系统的重要组成部分。而自适应人机界面的设计基于这样的假设, 即计算机系统能够通过评价用户的操作行为及环境状态, 使自己适合用户的期望和任务要求, 从而打破计算机和用户之间的通讯障碍。

1. 视觉在人机交互中的应用在人们的交谈和彼此间的交互过程中，视觉信息显然是很重要的。通过视觉的模态，我们可以立即确定许多显著的关于他人的事实和特征，包括他们的位置、身份、大致的年龄、注意力的焦点、脸部表情、姿势、手势和一般的活动。这些视觉线索影响到了会话的内容和进程，并提供了一些上下文相关的信息，这些信息与言语不同，但与此相关，例如，一个手势或面部表情可能是一个关键的信号，一个注视的角度可能可以消除在言语中“这个”或者“在那边”的指带不明。换言之，在人与人的交互中，视觉和言语是联合表达，相互补充的通道。正如语音自动识别是试图构造能够感知人们交流的文字方面的机器，那么计算机视觉技术是用来构造能够“观察人”并自动感知相关视觉信息的机器。

由上, 计算机视觉技术显得尤为重要, 计算机视觉是一门试图通过图像处理或视频处理而使计算机具备“看”的能力的计算学科。通过理解图像形成的几何和辐射线测定，接受器（相机）的属性和物理世界的属性，就有可能（至少在某些情况下）从图像中推断出关于事物的有用信息，例如一块织物的颜色、一圈染了色的痕迹的宽度、火星上一个移动机器人面前的障碍物的大小、监防系统中一张人脸的身份、海底植物的类型或者是MRI 扫描图中的肿瘤位置。计算机视觉研究的就是如何能健壮、有效地完成这类的任务。最初计算机视觉被看作是人工智能的一个子方向，现在已成为一个活跃的研究领域并长达40年了。

但经过我查阅资料, 我认为计算机视觉技术的发展相对于语音技术而言, 仍旧比较原始, 语音技术已经做到了成熟的商业化推广, 发展了几十年. 因此, 在计算机视觉技术方面, 仍然有大有作为的地方.

对于计算机听觉, 也就是语音识别技术, 相对于计算机视觉而言, 听觉技术的发展成就比较突出, 发展也更为成熟.

目前在大词汇语音识别方面处于领先地位的IBM 语音研究小组，就是在70年代开始了它的大词汇语音识别研究工作的。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年，其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。

这一时期所取得的重大进展有：

(1).隐式马尔科夫模型（HMM ）技术的成熟和不断完善成为语音识别的主流方法。

(2).以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候，除了识别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域，还产生了基于统计概率的语言模型。

(3).人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播算法（BP 算法）的多层感知网络。人工神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分。特别是在电话语音识别方面，由于其有着广泛的应用前景，成了当前语音识别应用的一个热点。

另外，面向个人用途的连续语音听写机技术也日趋完善。这方面，最具代表性的是IBM 的ViaVoice 和Dragon 公司的Dragon Dictate系统。这些系统具有说话人自适应能力，新用户不需要对全部词汇进行训练，便可在使用中不断提高识别率。

中国的语音识别技术的发展： ⑴在北京有中科院声学所、自动化所、清华大学、北京交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。总而言之, 我校在计算机语音研究方面, 在国内占有一定地位, 语音技术是一个相对成熟的技术, 目前该技术发展仍然很快速, 近几年有如下进展, 特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技术得到突飞猛进的发展。重大进展:

1）将机器学习领域深度学习研究引入到语音识别声学模型训练，使用带RBM 预训练的多层神经网络，极大提高了声学模型的准确率。在此方面，微软公司的研究人员率先取得了突破性进展，他们使用深层神经网络模型（DNN ）后，语音识别错误率降低了30%，是近20年来语音识别技术方面最快的进步.

2）目前大多主流的语音识别解码器已经采用基于有限状态机（WFST ）的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，为语音识别的实时应用提供了基础.

3）随着互联网的快速发展，以及手机等移动终端的普及应用，目前可以从多个渠道获取大量文本或语音方面的语料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，语言资料库的扩充变得方便.

我个人认为, 与视觉听觉技术相比, 计算机触觉技术是感官技术里面比较成熟的一个. 就我们日常生活中的智能手机就是一个触觉在人机交互中的典型应用.

作为一个研究领域，触觉技术与自动化技术的兴起息息相关。在工业革命以前，科学家的研究专注于生物的触觉体验。生物学家发现，即使是像水母和蠕虫这样的简单生物，都有着复杂的触觉反应。在20世纪早期，心理学家和医学研究人员都在积极研究人类是如何感受到触觉的。因此，这一科学分支便理所当然地被称为人类触觉。此外，研究表明，作为感受触觉的基本器官，人类手部的结构极其复杂。

由于拥有27根骨头和包括前臂肌肉在内的40块肌肉，手具有相当高的灵巧性。科学家用所谓自由度这一概念来将这种灵巧性加以量化。1自由度是指由一个关节进行的动作。由于人类的手包含22个关节，因此能达到的最大自由度为22。手上的皮肤含有许多感应器和神经。这些神经是神经系统的组成部分，它们能够将触觉传输到大脑和脊髓。

到了20世纪40年代，技术人员将相对粗糙的操控系统加以改进，并运用于核工业和其他需要接触危险物质的行业。工人们不用暴露在危险环境下就可以通过机器操控系统接触有毒物质或危险物质。最终，科学家发明了使用发动机和电子信号的装备来取代机械连接。这项发明可以将更加细微的手部动作创送到远程操控系统中去。

下一项革新源于电子计算机的发明。最初，计算机被用于在真实环境中控制机器（比如控制自动装配流水线中机器人）。然而，到了20世纪80年代，计算机技术已能够创造虚拟环境，用户可以在3D 世界遨游。在早期的虚拟环境中，使用者只能够得到声和光的刺激。多年以来，与虚拟物体的触觉互动仍十分有限。

到了1993年，麻省理工学院（MIT ）的人工智能实验室制造出了可以产生触觉刺激的设备。这个设备终于使得触摸虚拟物体变成可能。负责该项目的科学家将他们的研究领域称为计算机触觉，以区别于机器人触觉和人类触觉。如今，计算机触觉被定义为研究触摸虚拟物体所需的硬件和软件系统。这个领域发展迅速，许多前景广阔的触觉技术正在开发之中。目前, 计算机触摸技术发展迅速, 手机触摸板就是一个应用, 就上述介绍而言, 触摸技术一样有很大的发展空间.

4. 总结

我认为交互技术在未来必将大有作为, 上述的三个技术方面, 发展远远没能满足人们的需求. 因此, 在这些方面是可以继续深入研究的. 根据摩尔定律, 相信随着芯片的进步, 或是原子芯片的实现, 必将能够实现上述技术所需要的高度复杂的处理过程. 这门课的学习让我收获了许多. 也让我重新认识了触觉视觉和听觉在计算机方面的前景.

视觉听觉触觉在人机交互中的应用

相关文章