多维对话——走向视听融合的语音交互新体验研究

本文摘要：语音交互，语音交互渐渐沦为人们表达意图和与设备交流的优先选择（Voice First）。

语音交互，语音交互渐渐沦为人们表达意图和与设备交流的优先选择（Voice First）。与传统交互比起，语音交互和平了双手和双眼，人们可以低成本与设备对话；而且，语音是多维的，除了言语本身的信息，言语中还蕴含着非常丰富情感，容许人们与设备展开更加充份的对话。

语音交互也有局限性。语音交互所谓可视化的，更容易减少人们的记忆负担，设想语音查找信息的场景，你有可能必须集中精力听得，如果不留神就更容易错失一些内容。

鉴于此，正如人工智能专家吴恩达提及的，人与机器交流最高效的方式是语言，而机器与人最高效的交流方式是语言再加视觉，即必须在听力基础上带入视觉信息填补语音交互的严重不足。从语音向视觉伸延，在语音交互中带入可视化信息，早已是业界探寻下一代语音交互范式的最重要趋势。

以智能音箱为事例，除了无屏音箱以外，市场上开始经常出现带上屏幕的音箱。百度人工智能交互设计院本期以有屏智能设备为研究对象，探讨语音交互对系统和内容输入环节的体验。考虑到屏幕尺寸差异有可能对对系统和内容输入体验的影响，研究自由选择了两种有所不同屏幕尺寸的设备，分别是智能音箱（7英寸）和智能电视（55英寸）。本期的主要研究问题还包括：1）有屏设备的指令上屏对系统体验，主要指用户输出语音指令后，文本指令上屏的延迟时间以及文本指令在屏幕上呈现出的合理时间；2）有屏设备内容输入的音量阻碍体验，主要指用户在特定场景下（如听音乐/看视频），放入其它任务后（如查找百科），有所不同内容输入时的音量合理设置。

一、有屏设备的指令上屏体验研究与无屏设备比起，显示屏的带入使语音交互过程有更加非常丰富的对系统形式。以语音辨识阶段为事例，在无屏设备上，用户一般来说无法必要告诉输出指令的辨识结果。

而有屏设备必要在屏幕上表明指令的辨识结果，用户可以便利的查阅辨识结果的准确或错误情况，例如上屏后的指令我要听得周杰伦的青花瓷。然而，目前很多设备在指令上屏时不存在一定程度的延后现象，本实验对指令上屏合理的延迟时间和呈现出时间展开研究。1、指令上屏延迟时间实验由于市场上的有屏设备多数使用动态上屏方式，即用户输出语音指令的同时就开始在屏幕上呈现出辨识结果，因此，本实验只研究动态上屏。在实验中我们用于动态稿子上屏的方式，并以掌控首字上屏延迟时间为主要变量（录：首字上屏延迟时间所指从用户开始说道到第一个字上屏的时间间隔），我们设置了有所不同的首字延迟时间，以此提供用户对指令上屏速度的满意度评价（5点量表：1-十分不失望，2-较为不失望，3-一般，4-比较满意，5-十分失望）。

在实验中，我们分别获取了3种有所不同长度的指令。实验结果表明，首字延迟时间越高，用户的满意度越高，有所不同屏幕尺寸设备的首字延迟时间满意度有所差异，我们将4-比较满意看作用户失望的分数上限，将3-一般看作用户可拒绝接受的分数上限，有所不同设备间用户失望和可拒绝接受的上屏时间如下：1）对于有屏音箱，用户失望的首字延迟时间上限在500ms左右，可拒绝接受的首字延迟时间上限在1500-1600ms左右；2）对于智能电视，用户失望的首字延迟时间上限在600-700ms左右，可拒绝接受的首字延迟时间上限在1100-1200ms左右；融合对市场上其它设备的研究找到，部分设备的首字上屏时间显著比用户失望的时间上限宽，少数甚至比可拒绝接受的上限还要宽。关于指令上屏速度，产品仍有提高和优化的空间，即语音辨识ASR（Automatic Speech Recognition）技术除了在大大提高辨识准确率以外，同时也必须注目辨识速度指标的提高。2、指令上屏呈现出时间实验除了指令上屏时间，我们更进一步对指令上屏后合理的呈现出时间展开研究，以防止指令呈现出时间太短导致用户无法看清楚，或者呈现出时间过于宽造成整个交互过程拖沓校验。

在实验中，我们以文字呈现出时间为主要变量（录：文字呈现出时间指文本指令最后一个字上屏后到全部指令消失的时间间隔），提供用户对有所不同呈现出时间的满意度评价。由于语音辨识牵涉到语言模型技术，实际的指令上屏并不是稿子的方式，因此，本部分实验我们也仿真了逐块上屏的方式，以指令我想要看刘德华2010年以前主演的香港电影为事例，刘德华被整体辨识后才上屏。

在实验中，我们也分别获取了3种有所不同长度的指令。实验结果表明，不存在拟合的文字上屏呈现出时间，有所不同屏幕尺寸设备之间，拟合的文字上屏呈现出时间无明显差异。有所不同上屏方式间不存在差异，稿子上屏和逐块上屏的拟合呈现出时间分别如下：1）稿子上屏方式下，拟合的指令呈现出时间为200-500ms的区间；2）逐块上屏方式下，拟合的指令呈现出时间为400-700ms的区间。由于逐块上屏方式更加相似现实产品的上屏方式，因此建议主要参照400-700ms的呈现出时间。

必须解释的是，由于动态上屏的方式容许用户在输出语音指令过程中就可以查阅早已上屏的文字，这与整体辨识后上屏的方式显著有所不同，因此，如果产品使用的是整体辨识后上屏的方式，不建议参照本部分实验的结论。二、有屏设备的音量阻碍体验研究有屏设备除了使语音交互有更加非常丰富的对系统以外，屏幕的引进也拓展了设备过去不具备的功能，例如视频内容消费和视频通讯能力等。同时设备的用于也在经历从过去单一任务到多个任务的变化，当看视频时，你可以随时放入任务查询信息，例如看电视剧《扶摇》时查找演员杨幂的信息。本部分实验主要研究用户放入任务后，前景内容和背景内容间的音量阻碍体验，如当前景内容正在语音主播信息时，背景视频或音乐的合理音量范围，以防止过低的背景音对用户获取信息产生阻碍。

1、音量阻碍实验在实验中，用户被拒绝分别在看视频和听音乐两种场景下展开信息查找。我们设置了两种初始音量（录：初始音量是用户看视频/听音乐的音量）：60和65分贝，用户查找人物或百科信息后，通过设置有所不同的背景音量（录：此时前景内容为语音主播信息，背景内容为视频或音乐），提供用户对背景音量的满意度评价。同时融合实验后问卷理解用户对前景和背景信息展出的态度。

由于有所不同设备间音量刻度范围不存在差异，实验中对有屏音箱和智能电视的背景音量展开了分别设置。实验结果找到，无论背景是视频还是音乐，用户都不讨厌背景几乎静音（录：右图中0代表背景几乎静音）。针对有屏音箱和智能电视，当初始音量大约为60分贝时，背景音量舒适度范围有所差异，明确结果如下：1）针对有屏音箱，背景视频音量上升至36-53分贝范围，背景音乐音量上升至39-56分贝范围时，用户主观感觉较舒适度；2）针对智能电视，背景视频音量上升至39-53分贝范围，背景音乐音量上升至36-53分贝范围时，用户主观感觉较舒适度。

实验中我们同时研究了初始音量为65分贝时背景音量的舒适度范围，因实验结果与上述趋势大致相同，篇幅所限，嗣后不一一进行。此外，融合实验后的问卷调研结果找到，关于背景的播出状态，背景为音乐时用户更加偏向之后播出，而背景为视频时有屏音箱末端偏向视频停止的用户更加多。主要是由于有屏音箱末端背景视频被几乎覆盖面积，因此，用户指出背景视频停止较好，以防止错失感兴趣的视频内容。关于前景内容的播出状态，无论屏幕尺寸差异和背景媒体类型，多数用户期望需要对前景信息展开语音主播，而某种程度是在屏幕上以文字或图文的形式展出。

三、小结本文针对有屏设备的语音交互体验展开研究，重点探寻统合视觉系统后交互对系统和内容输入环节的体验问题。对指令上屏的延迟时间和指令呈现出时间得出了我们的研究结果和设计建议，以及有所不同内容输入时前景和背景的合理音量设置等。从语音向视觉的伸延，语音交互的边界和外延仍将大大变化。

语音交互与传统的交互方式并不是物理地址的、非此即彼的关系，未来的嵌入式将带入听力、视觉、触觉、味觉、嗅觉等多模态的交互方式。未来的交互范式必定不是这些交互方式的非常简单六边形和罗列，而是在考虑到特定场景、人的因素、环境条件等因素后有序的、合理的人组和设计。

百度人工智能交互设计院也将不会持续的注目多模态交互领域的研究和设计，并大大输入我们的研究成果和观点。未来，语音交互，我们一起探寻和变革。版权文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：大阳城8722官方网站

本文来源：大阳城8722官方网站-www.runbanye.cn

多维对话——走向视听融合的语音交互新体验研究_大阳城8722官方网站

工程案例

关于我们

大阳城8722官方网站

工程案例

招商加盟