从语音识别、语义理解等基础技术的日臻成熟,到各大厂商纷纷发布各自的智能语音产品和语音操作平台,语音交互正在成为主流交互方式之一。但是语音交互也存在私密性差、易干扰他人等局限性,因此语音交互需要与其他交互方式进行配合组成多模交互才能发挥最大效用。而在众多其他交互方式中,手势交互符合人类自然模型,且已具备成熟的技术基础,无论是单独使用还是与其他交互方式组成多模交互,都能发挥良好作用,极有可能成为下一个设计点。
本篇文章中,麻省理工学院实验室David Rose结合他在全球创新设计公司IDEO的项目经历,分享了手势设计思与方法、对手势交互的洞察以及手势交互的优势。本文基于他《Why Gesture is the Next Big Thing in Design》一文进行编译,在不改变作者原意的情况下,做了删减和编排。
自2010年Siri(注:苹果语音助手)问世以来,人们越来越热衷于语音交互界面。当我们需要调节室内温度时,我们会找Alexa(注:亚马逊公司的智能语音助手)。当我们想播放电影时,我们会通过遥控器进行语音搜索。据报道,截至2017年底,美国家庭中已拥有大约3300万台语音智能设备。
但是,语音交互存在明显的局限性。语音交互很慢,当旁人在场时会使人难为情,而且必须使用令人尴尬的词,如“Okay,Google”或“Hey,Siri”。
苹果公司的新款手机所采用的摄像头(注:此处应指iPhone X的3D摄像头“TrueDepth”),可以三维空间,能记录每个像素的深度信息;而诸如Nest IQ(注:谷歌子公司Nest推出的智能家用摄像头)、Amazons Echo Look(注:亚马逊推出的一款搭载Alexa语音助手的相机,可根据用户的指令来完成拍照等动作)这样的家庭设备,也配备有摄像头。神经网络可以学习这些信息,并利用更多的训练集来提升学习效果。结合神经网络,这些新型相机可以在场景中创建人物的点云(注:计算机视觉领域术语,提车黄道吉日指三维空间参考系下表示目标表面特性的海量点集合)或深度图(注:计算机视觉领域术语,指有深度信息的图片,可以表示出物体的到镜头的距离),描绘他们的运动姿势,以及运动形态。经过训练,神经网络能识别特定的人,对他们的活动进行分类,并从远处对他们的手势进行回应。神经网络和摄像头技术的进步,共同为手势设计和基于手势的交互模型开辟了新。
这些新的选择带来了一个问题:在现有的交互模式中 ,触觉(触摸),声音(语音)和视觉(手势),哪一种更好?它们各自更适用于哪些场景?为什么?
现有用例指向了一个答案。当你在潜水、滑水、活在航母甲板上指挥交通时,听觉通道不可用,手势或触摸操作就变得重要了起来。
在手术室内,外科医生的手是无菌的,所以她无法手动操作放射扫描仪,只能用语音和手势。如果你正在指挥管弦乐队或正在进行军事突袭,你无法喊出指令,因此,我们别无选择,必须使用手势。
(注:视频中展示了各种各样的手势,按出现顺序依次为:公共空间(台阶上的行为艺术、公园中的情侣)中的手势,挥动旗帜的士兵、气象播报员、隔空手势控制计算机桌面、卓别林在狮笼中的动作、舞台剧表演中的手势、指挥家的手势、手语中的手势、猜字游戏中的手势、板球中手势、音符的手势表达、瑜伽中的手势、校园中见面问候的手势、日本茶道中的手势、演唱中的手势、日常聊天中的手势、街舞表演中演员及观众的手势、科幻电影中的手势、哈利波特电影中的魔法手势、的手势、太极中的手势、Butoh舞(日本一种另类舞蹈)中的手势,其它舞台表演中的非手势形态,星际迷航电影中外星人的手势等。)
为了进一步了解手势的用途,我们剑桥工作室的团队利用了一个类似iPhone X上搭载的摄像机,进行了一系列的实验,来探索什么情况下使用手势可能是最佳选择。
然后,两人相互讲故事。利用计算机视觉技术记录他们讲述的故事,并实时他们在讲述时手势,以研究什么时候我们会自然地通过手势来增强情感或者解释某个概念。
(注:视频中展示的两组研究及采集手势的示例:两人一组,其中一人向另一人讲述一个故事,同时采用计算机视觉技术去讲述人在说话过程中的手势(如视频中的白点)。两组讲述人分别讲了两个风格不同的故事,一个讲的是自己想成为超人的梦想,可以控制原子去创造各种东西;另一个讲的是自己小时候的一件趣事。)
让一组人演示同一个动作或者指令,能看到不同人动作的差异。这样做的目的是找到尽可能通用的手势。
最后,我们训练神经网络来识别一小部分手势,用这些手势来控制飞利浦HUE灯(注:飞利浦推出的智能照,可以通过手机或平板电脑灯光调节)、Spotify网站(注:音乐平台,当前最受欢迎的流音乐服务提供商之一),在办公室创建了一套支持手势交互的系统。
在尝试这些操作时,我们发现,手势必须具有一定顺序。就像在一个句子中,先名词后动词,手势必须顺序包含以下信息:施动主语以及动作。例如,对于“打开扬声器”这一指令,就需要用一只手表示施动主语,另一只手表示动作:用左手指向扬声器,然后抬高右手调大音量。
当我们发出“调高音量”的指令后,只有少数几个人作出了扭动旋钮的动作,而大多数30岁以下的人则是举起一只手掌或者用手指做了一个捏合的手势。
David Rose是一位屡获殊荣的企业家、作家,麻省理工学院实验室。他曾于2017年担任IDEO剑桥的家居未来学家。他的研究致力于使物理成为数字信息的接口。他的第一本著作《Enchanted Object》聚焦物联网的未来,以及这些技术将如何影响我们的生活及工作方式。
文章由325棋牌提供发布