座舱还能怎么玩？多模态交互的现在与未来

[ 智能网导读 ] 随着技术日趋普及，应用日渐加深，算法及相关技术适应性也会更强，直至充分适应任何群体与场合。

图片来自“特定授权”

【编者按】国内外汽车人机交互已进入语音、手势、人脸等多模态交互阶段，下一步的重点将是功能深化、场景应用融合。

本文转自高工智能汽车，原作者高工智能汽车；由智能网汽车整理转载，供行业内人士参考。

在2019年和2020年的CES展会上，智能驾舱、车载人机交互系统、沉浸式体验就已经成为汽车行业的关注焦点。
在车市不振的当前，主机厂可以通过提供类似易被察觉和用户感受到的差异化功能，迅速提高自身的产品竞争力。尤其是在大屏、多屏等硬件差异化越来越小的背景下，软实力越来越重要。
在2020-2023年各大国内外汽车主机厂的产品规划中，可以清晰看到智能驾舱多模态交互已成为重点规划产品。其中，多模态人机交互主要分为交互信息输入、融合和处理、反馈3个模块。
其中，信息输入模块主要接收来自人的语音、触摸、手势、视觉、表情等信息，然后借助多模态信息融合和理解模块，形成“感”觉和认知，并根据专家知识库系统和检索技术形成对用户的信息反馈，构建出多模态自然人机交互系统。
举例：比如语音输入“我想看看路左边广场的背面大厦的照片”，需要一个描述准确的完整语句才能完成；而如果采用多模态的交互方式，只需要用眼动追踪再叠加语音即可更加准确地实现上述交互目的。
由此可见，视觉交互的方式有更好的指向性。如人们口头上经常说的“那、这”等代词会在语义上产生多义与歧义，因此可以使用视线感知来避免此类问题。
而目前与视线相关的驾驶员监控系统DMS已从法规层面成为刚需：Euro-NCAP要求2020年DMS成为五星评级的必要条件之一，中国目前也在跟进相关标准法规的制定。
从应用层面，DMS可感知驾舱内驾驶员与乘员的状态，如疲劳、注意力、驾驶行为（抽烟、电话等），充分保障驾驶员行车安全，将是多模态交互的主要方式之一。
相应厂商的量产进度也在加快，比如，未动科技在智能驾舱视觉AI领域的产品已实现规模销售，2019年获得5家国内一线品牌车厂量产项目定点，合作车型12款，该公司数据显示占据国内前装驾驶员监控系统70%的市场份额。一、多模态交互已初具量产条件此前，国内已经量产搭载基于视觉方案DMS的车型包括爱驰U5、小鹏G3、凯迪拉克CT6、广汽新能源Aion LX等。
其中，爱驰U5将摄像头安装于A柱，可实时监控驾驶员的状态。当驾驶员出现打电话、打哈欠或者视线不注视前方三种情况时，系统都会进行语音播报提示，有效增加了行车安全性。
小鹏汽车之前发布的Xmart OS 1.5 版本也显示，通过车内摄像头可实时检测驾驶员在行车过程中的疲劳行为特征（打呵欠、长时间闭眼等），在发生疲劳行为时及时做出预警。
而相对视觉、语音识别市场的迅速扩张，手势识别的市场应用推进则相对缓慢，但其中依然不乏大厂在推陈出新。
手势识别于2015年率先搭载于宝马7系，共7个手势动作。国内包括君马SEEK 5（9个手势）、奇瑞瑞虎5X、小鹏G3尊享版等车型也有搭载，主要用于中控系统的基本操作。
另外，其他交互方式也在陆续搭载量产车上。例如，人脸识别于2018年开始在国内车型陆续搭载，包括零跑S01、星途TX、WEY VV6、威马EX5、吉利星越等车型。
日前，长安欧尚X7也最新增加了带有人脸识别全自动泊车太空逍遥版，同时也是同级唯一搭载人脸识别系统的车型。
车窗交互、车身交互、静脉识别、指纹识别、AR导航等新型交互方式也陆续搭载到零跑S01、现代新胜达、荣威Marvel X等车型。
不过，大众问问CEO张人杰表示，实现车载多模态交互量产的第一步是提升车载语音的普及度。只有语音交互变成用户的强需求，结合其他模态才有意义。
总体上讲，国内业界常见的落地项目多数还只是打通了语音和触摸，其他模态并没有大规模普及。而语音交互也仍处于普及初级阶段。
按照高工智能汽车研究院发布的《2020年一季度数字座舱及车联功能前装搭载报告》显示，今年一季度，国内自主及合资品牌搭载语音车型上险量占比为55.48%，其中具备自然语言理解交互的不到五成。
此外，从功能看，车内语音交互正在从信息娱乐向车身控制与车外场景联动的方向延伸，语音技术和车机协议、车内生态正在逐渐打通。
然而，语音作为多模态交互最主要的组成部分，依然存在种种缺陷。上到主动交互，多轮对话，下到基础识别与抗噪等各种功能的提升上，还处于难题破解的阶段。
张人杰认为，目前最具可行性现实的方案就是把触摸和语音的多轮对话相结合，这也是在目前唯一做到可实际大规模量产的项目。
总而言之，虽然结合语音、触摸、视觉、手势等感知的多模态技术已初步具备量产条件，但要达到理想的用户体验，依然有很长的路要走。 二、理想的人机交互是什么样人机交互分为两个境界：一是机器识别人类已发出的指令并完成工作；二是机器能够在人类发出指令之前，读懂人的心思并预测指令内容，主动完成工作。两种境界中，多模态深度语义理解是关键。
未动科技CEO孙铮认为，多模态交互的最终形态是车载智能助理：人机共驾感知成为新的HMI输入，车辆可在上车-行驶-下车的整个用车周期中，为驾乘人主动提供场景化的服务，实现机器自主/半自主决策。
从驾乘体验来看，消费者不再希望车只是一个代步工具，而是一个作为人机交互、满足娱乐需求、办公需求的个性化移动空间，同时车辆需要具备“感知”人、“理解”人的能力，从而为行车过程提供舒适智能的体验。
而提升用户体验的核心是做到更精准的感知。机器需要非常精确地理解人的意图，才能够实现更精准的交互。作为生活在移动互联网时代的广大用户，也会因为车辆交互体验逐步向IT领域对齐，而产生亲切感，进而产生购买欲望。
数据表明，中国消费者对数字座舱类体验的支付意愿较高。根据《中国消费者共享汽车使用情况调查》，近50%的消费者对具备智能化感知交互的汽车表示具有强烈兴趣和支付意愿。
不过，交互的设计离不开场景。在不同场景下，用户需求也大相径庭，因此基于场景的用户交互逻辑设计至关重要。
而当前被业界津津乐道的手势控制是否真的可以被消费者接受？张人杰提出了质疑，“这有待于做进一步的用户调研。”
例如最早搭载于宝马7系的手势交互看起来非常高大上，但实际遭到了不少吐槽。在业内人士看来，这种功能只是展现了一种技术实现的可能性，但真正给用户带来的体验方面的升级并不大。
张人杰认为，交互的逻辑层面实际上囊括了心理学的话题。“车厂需要弄明白，把如此多的技术集合在一起是否真的是用户想要的。”然而，很多车机的设计并没有真正站在车主的角度考虑，而是一味地闭门造车。
“比如车载导航为什么没人用？当车机在导航的同时播放了音乐，导航声音一出现，音乐声就会减弱，用户体验就很差。”张人杰强调，以用户需求为引导来开发交互逻辑才是最重要的。
除了多做用户调研，深刻了解用户需求，厂商也要分析技术的可行性：多模态交互将多轮交流分摊给了不同模态的方案去承担，而不仅仅是语音。但轮次越多，缓存的东西就越多，对于系统存储的开销、算力来讲都是很大的挑战。
由此来看，交互逻辑和技术亟需达成平衡。产品经理在设计交互的同时也要考虑到实际的系统开销是否可以承受这种多轮交互对于存储、算力的需求。
孙铮认为，触屏、语音、手势、视觉等交互设计需要扬长避短。例如触屏交互要避免行车中的分心。视觉、手势等需要克服误触发。
而要想达到人机交互的理想状态，一方面需要着力提升视觉、语音、手势等多模态感知技术，另一方面需要从交互、环境、控制、空间、数据五大维度进行座舱智能化变革，提升体验。
另外，新车载交互技术的发展，终究不会始终局限于座舱域。人机交互最终会参与到诸如车门、车窗、动力系统等车身的控制。例如在自动驾驶阶段，当感知到驾驶员不再适合驾驶时，车辆将自动接管驾驶。三、企业应该怎么做？
从各个厂商的角度，要想从竞争中杀出一条血路，必须在交互逻辑、技术本身、数据流方面有差异化优势，对用户需求和驾舱内应用场景有深入理解。
相关供应商反馈，多模态的应用难题在于道路环境具有极大的复杂性，相关技术发展时日尚短，还不能完美应对所有复杂的道路工况环境；用户个体差异大，人工智能还不足以对所有人群实现全方位匹配。
此外，由于语音、手势、视觉等技术目前在车内的应用仍处于萌芽状态，且应用度低，主机厂在量产方面也缺乏相关经验。
某主机厂反映，目前的技术还没法保障多模态交互功能的安全性，也很容易出现误判断的情况。不过当前正处于多模态技术的研发阶段，预计2021年会陆续实现量产落地。
不过，受到疫情影响，主机厂对于成本的要求也更为苛刻。由于多模态技术涉及到不同的技术和供应商的集成。主机厂在沟通、调研等成本方面、以及QA、软件版本测试等方面都会面临挑战。
因此，业界普遍认为，多模态交互的量产应该由各大主机厂牵头，人工智能企业参与的方式实现。主机厂更贴近消费者，了解客户的需求，并且具有强大的软硬件资源整合能力。
而人工智能公司则专注于技术创新，应用场景拓展等领域。双方强强联合，更助于行业在多模态交互领域开拓进取。
事实上，多数主机厂也倾向与集成式的Tier1合作。资金实力雄厚的则选择了系统自研+少数委外的量产方式。
目前，国内主机厂自主参与研发的人机交互系统主要有斑马智行、广汽ADiGO、蔚来NIO OS、吉利GKUI、比亚迪DiLink、小鹏Xmart OS、奇瑞雄狮智云等。
其中，吉利GKUI已迭代至GKUI2019，具备按键、旋钮、触控、语音、手机、HUD、人脸识别、智能手表8种交互方式。
国外汽车人机交互系统主要有宝马iDrive、奔驰MBUX、奥迪MMI、福特SYNC等。其中，宝马iDrive已迭代到7.0，具备按键、旋钮、触控、手势、语音、手机6种交互方式。
有用户反馈，“宝马iDrive7.0的手势交互非常灵敏。切歌、调音量非常方便，识别过程又快又准，是我体验过的最好的手势交互。”
总之，国内外汽车人机交互已进入语音、手势、人脸等多模态交互阶段，下一步的重点将是功能深化、场景应用融合。
此外，从车内交互到多场景交互，从“被动交互”到“主动交互”也成为未来的人机交互的发展趋势。
相关业内人士指出，未来一到两年，将有大批搭载视线、语音、手势等交互产品的车型上市。随着技术日趋普及，应用日渐加深，算法及相关技术适应性也会更强，直至充分适应任何群体与场合。