语音控制在大部分情况下都很糟心

/ 0评 / 0

你还记得天国的锤子 TNT 么?

我一直觉得语音控制是一个非常非常糟心的交互方式。一方面是因为现在语音交互做得确实还欠打磨。但就算是我们想办法突破了技术瓶颈,让计算机能够像人类一样对人类的语音敏感(我暂且按下即使是人也有听错的时候这种问题不表)而且在本地运行,让语音交互能像普通的表单交互那样好用还有很多路要走。

首先,语音本身难以承载抽象的想法。人类使用工具的时候并不会具象地陈述自己要做什么,而是通过下意识的操作来实现脑子里不成形的概念。比如你在写作时不会思考怎么握笔,也不会陈述怎么把笔放到纸上写字;而是把脑海里的概念一点点组织成文字「发送」给手「自动」写出文章。就以这篇博文而言,如果我需要通过语音来录入这篇文章,哪怕 AI 不会给我录入一个错字也不会多录少录,我感觉要花费的时间也远比我敲敲键盘甚至把文章写到纸上再拍照识别要长许多:写文章的时候,我需要在脑海里组织许多概念、预演很多方案,而这些事情发生的速度是远超我能说话的速度的。

人类思考的速度比人类说话的速度要快上许多,而且人类几乎只能说出具象的概念,这使得语音交互只能拿来干一些简单的、具体的事情。

但是即使是看似简单具体的事情,语音交互也会让搞定这个事情变得复杂。比如说我要打车去机场。好,可是打什么车呢?出租?网约车?网约车要打什么价位的呢?新出租要不要选上?你在哪上车?……这些全部全部的事情,在打车软件里可以用一个界面呈现和操作;而如果要跟语音助手交互的话,你要么得通过连续对话功能来敲定每个选项,要么就得接受语音助手会给你搞出许多不必要的麻烦的现实。

这还是假定打车软件愿意给你足够的 API 来让你接入语音助手。假如你到一个饭馆吃饭,你是愿意有一份菜单看看有什么吃的呢,还是跟服务员激情对线让他给你推荐一份你可能想要吃的东西呢?和语音助手交互的感觉比跟一个吊儿郎当的服务员对话还要糟心,因为很多时候语音交互界面很难传递软件不能做什么。假如你想在导航里面挑一条宽一点的路,或者挑一条经过特殊点的路,如果界面里不提供这个选项,你很轻易地就能理解软件做不到这个事情;而纯语音交互需要你问某件事到底能不能做。更糟心的是随着软件迭代,昨天做不了的事情也许今天就能做了。传统软件此时就可以在图形界面上向你展示这个新的功能选项,而纯语音交互,你就还是得问。

问多了,也就烦了。很多时候我不想说话或者不方便说话。如果我想知道现在几点钟,我只要抬头看一下表就可以了;如果我需要前挡风除雾,我只要拧一下旋钮就可以了。这些交互是语音助手所无法替代的:抬一下头或者拧一下旋钮可以下意识完成,而问「现在几点」需要把下意识的动作具象化,执行效率是远低于抬一下头动一下眼球的。

况且,很多时候我所在的场合并不方便我说话。即使语音助手可以在嘈杂的环境里完美识别我说的话,还有很多情况下你是需要保持安静的,比如在无聊的会议上玩手机。这时候你来一句「小爱同学,放点音乐」,哪怕你带着耳机,也很难不引来领导的斜眼。

就算是你在一个没有明确要求保持安静的环境里,也要意识到语音消息的媒介访问控制方案是碰撞避免的载波侦听多路访问,换成人话说是同时只能有一个人或者物体说话。身边的人确实可以忽略你跟语音助手的对话,但是人脑天生就带一个关不掉的语音信号放大器,说个没完也容易遭嫌。

而且,语言本身是有很强的歧义的,这些歧义需要经验知识和外部资料来解歧义。还是以打车为例子,我告诉语音助手「我在路的向人造板厂方向这边」,这就需要语音助手有足够多的经验知识意识到:

  1. 人造板厂是指本地区域内的某个位置,不是全国任意一个人造板厂
    • 而且是「那个」人造板厂,其他的本区域内的板厂不算数
  2. 当前车道中某一个方向可以在不在本路内掉头的情况下到达人造板厂
    • 尽管技术上来说这整条路都是不能掉头的
  3. 人造板厂早就没有了,但是我仍然用这个名字来指代这个地点
    • 而且对于足够年轻或者不住在这片附近的人而言,他压根不会知道人造板厂在哪
    • 而且如果照着地图引擎模糊搜索的话,它反而会返回错误的结果
    • 你得把地图数据调回用户所熟知的那一版才能拿到正确的结果

但是实际上,我的意思是「以我所站的位置从道路向我做法线,法线方向大致指向人造板厂」。东西街成南北走了。或者,同样是「北京方向」,站在上海是往北走,站在漠河是往南走,站在沈阳是往西走,站在喀什是往东走。很多这样微小的去歧义化过程所要调度的资源是远超现在用户愿意授权的资源的:语音助手不仅得时时刻刻知道你是谁、你在哪,还得能猜到你在想什么。这还是在假定我们已经解决了算力情况下所要面临的问题,实际情况是就算真授权这么多信息出来,这些信息的实时处理又是一桩难题。


这并不是说语音控制就一无是处了。作为可访问性提升的手段,语音控制仍然是不可替代的——对于有运动障碍者来说,糟心总比不能用强。但是语音控制并不能作为唯一的操作方式。无论是新势力车也好、AI 胸章也罢,尝试将语音操作作为唯一交互方式必然需要面对语音操作所带来的固有缺陷。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Your comments will be submitted to a human moderator and will only be shown publicly after approval. The moderator reserves the full right to not approve any comment without reason. Please be civil.