2022 年 11 月 30 日,OpenAI 发布 ChatGPT 3.5,带领人类走向 AGI 人机交互新世纪。AGI 让自然人机交互成为现实,「语言」这一简单、自然的交互方式,一度威胁到统治人机交互领域长达几十年之久的 GUI(图形用户界面)。设计者们纷纷开始各种各样的尝试与改造:
无一例外,设计者们在起初,大胆而坚定的拥抱「会话式交互」,仿佛它无所不能,即将成为人机交互领域的主宰。然而,随着时间的流逝,当人们从自然语言交互的“热恋”冷静下来时,才发现纵然会话式交互有着简单易上手等优势,但也存在着诸多的弊端。
一个重要的问题开始浮出水面:到底 AI 产品界面设计该如何进行?在蚂蚁内部的 AI 产品设计实践中,我们也经常冒出类似的困惑:
这些困惑的本质来源于,我们缺乏对当下融合了多种交互模式的「AI 产品界面设计」缺乏清晰的定义和认知,因而在如何创造好的 AI 体验上遇到了迷茫。
因此从 2023 年底开始,我们团队抽调了各个业务领域的设计师,横向成立了 AI 设计研究小组,开始尝试去定义和理解所谓的「AI + Design」是什么、该怎么做的设计命题。
在这方面,无论是学术界还是企业界,都有着不少相关的研究和应用。站在巨人的肩膀上,我们力图构建出一套适用于当下的 AI 设计理论,并同时在蚂蚁内部涌现的海量 AI 产品中,去实践和迭代我们的思想。在这个过程中,一套系统性的 AI 设计理论和方法开始涌现——《RICH 设计范式——创造卓越 AI 产品体验》。
RICH 是我们提出来的一个 AI 界面设计范式,好比 WIMP 范式之于图形用户界面。ACM SIGCHI 2005(人机交互顶会)曾经定义过,人机交互的核心问题可以分为三个层面
其中界面范式,是每一个人机交互新技术诞生之时,设计者最需要去关注和定义的层面。界面范式定义了设计者所应该关注的设计要素是什么,基于此才能定义什么是好的设计和该如何进行好的设计。
人们追求用户界面的革新,本质上是想要拓宽人机交互的带宽,更大程度解放人的生产力。在整个人机交互的发展过程中,出现了多种广泛使用的用户界面类型,从最早的批处理界面,到后来的命令行界面,再到当下最为流行的图形用户界面。
基于 WIMP (Window, Icon, Menu, Point Device) 界面范式的图形用户界面,最早诞生于 1970 年代的施乐公司,而后在 1980 年代相继被苹果 Macintosh 电脑和微软 windows 电脑借鉴并发扬光大。基于桌面隐喻的 WIMP 界面由于其语法极小化,对象可视化和快速语义反馈等优点,持续统治着界面设计领域 40 年有余。
如下图案例,我们如今仍在使用的 WIMP 图形用户界面,与最早的样子并无本质差异。这样强有力的现实,也再一次验证了定义界面范式的重要性。
在 AGI 时代,机器已经可以理解更复杂、模糊的人们意图,也可以用几乎完全类人的方式与用户交流。这项变革的技术将引领我们不得不从过去的设计经验中跳脱出来,去尝试定义一个新的人机交互界面的范式,从而寻找体验的最优解。RICH 正是我们提出的适用于当下 AGI 人机交互界面设计时代的一种范式的假设,它包含了四个设计要素:
每一个设计要素都在牵引着我们设计者需要关注的具体问题。
我们认为,在 AI 设计过程中,关注到这四个要素,将有助于我们事半功倍的创造出卓越的 AI 产品体验。
在应用之前,我们想先跟大家分享下 RICH 是如何推导出来的?为什么是 RICH 而不是其它?在人机交互变迁史上,机器和交互方式的迭代总是依托于变革性技术的成熟化应用。变化的是技术和交互方式,但不变的永远是人机交互的本质与人的需求。从不变思变,正是 RICH 推导出来的关键一步。人机交互的本质是用户通过执行某种动作或行为输入给机器,机器理解并完成诉求后产出结果给用户,用户评估是否符合要求,如果符合,一个交互单元就完成了闭环。
基于此,唐纳德·诺曼提出了一个人机交互模型,更进一步的拆解和定义了这个交互单元。
在图形界面时代,WIMP 范式中的各个要素,主要作用于人机交互的「执行操作」与输出环节的相关节点:
受限于图形界面交互的特点,实际上在过去的交互过程中,前期的大量工作需要用户自己完成。用户需要先行根据自己的意图,结合工具——即电脑与图形界面,再进行方案的制定和拆解,才能开始让机器开始执行所明确要求的操作。
可以看到,过去机器只是被动的在帮助用户完成命令的执行,而用户的意图需要经过自身的先行拆解和细化才能最终转译成一次又一次的点击传达给用户。但是当下 AI 时代,一切都不一样了。机器最大的飞跃在于它越来越像一个“人”了,它能够理解用户模糊的意图,甚至自动制定方案、推动任务执行,最终帮助用户达成他的意图。
在这个新的体验环节中,增加了很多隐形的体验规则,过去只要 UI 界面组织的相对可用、美观,就能给用户带来较好的体验感受。但 AI 时代,体验还取决于机器是否听得懂我的意思,是否讲话比较好听等等一系列隐形的体验。因而针对这样一种新的交互特征,关键设计要素需要被重新抽象和定义,确保我们的设计关注点走在正确的方向上。RICH 范式正是我们尝试定义的 AI 时代应该关注的设计要素集:
上述四个要素,组合在一起构成了 IRCH 这四个字母,为了方便记忆和应用,我们调整了下字母的顺序得到了 RICH 这个单词,刚好十分便于记忆,我们暂且将这个设计范式称之为「RICH 设计范式」😄。
那么该如何应用 RICH 创造卓越的 AI 产品体验呢?在后续的指引文档里,我们将深入浅出,分别针对 RICH 中的四个要素进行介绍和定义,并提供了开箱即用的设计策略和案例,帮助大家更好的理解和应用 RICH。这套理念和最终的界面资产也集成到 Ant Design X 里,希望能帮助大家轻松创造卓越 AI 产品体验!
附最后,感谢广大开源的各类学术论文、书籍和企业界的 AI 设计理论,过去一年多,在它们的肩膀上,我们构建了一套开箱即用的理论与方法。我们知道 RICH 一定还有很多考虑不周的地方,也希望大家多多给我们反馈。
在简介篇中我们提到在蚂蚁内部 AI 产品实践中,经常冒出诸多的体验困惑,其中最关键的都聚焦在设计的「模糊前期」,比如:什么时候应该使用会话的方式?如何让 AI 理解用户的意图等?意图这一体验要素,在 AI 时代变得更加举足轻重,除了技术的努力,设计能在意图方面做些什么呢?
在人工智能领域,意图通常被定义为用户希望达成的目标,如查询天气情况、办理银行业务、预约服务等。这些意图并不总是直接表达出来,而是隐含在用户的言行之中。在不同的领域和维度,意图也有不同的分类,如按照用户意图清晰度可分成意图清晰与意图模糊;按照用户与系统的交互目的可分为咨询信息类与执行任务类。
用户的意图常常隐含在言行之中,用户倾向于以自然方式表达需求,而非直接说明意图。因此,准确识别这些隐含意图至关重要。它能帮助 AI 更准确回应用户需求,更高效完成用户目标。
换句话说用户目标的实现已从 GUI 时代的繁琐界面操作转变为 AGI 时代 AI 对复杂意图的理解。这大大降低了用户的学习成本,提升了产品体验。然而我们在蚂蚁内部的 AI 实践中发现,并非所有意图都适合会话式交互,有时传统界面的简单点击交互,在某些场景下比多轮对话更为高效。除了传统界面交互与会话式等交互界面范式的问题,通过调研我们还发现:大部分用户对于 AI 产品存在认知盲区,即不清楚 AI 能帮我实现哪些意图,以及往往没有能力准确表达意图,这在一定程度上阻碍了 AI 的有效应用。因此,如何提升用户对 AI 能力的认知,并设计出让用户能轻松准确表达意图的界面,成为当前 AI 设计领域待解决的重要课题。
那么该如何应用意图设计策略解决 AI 产品的体验设计问题呢?概览如下图,具体细节内容请往下查看。
在意图设计的概览中,我们提及了意图可依据不同领域与维度进行分类。
我们发现意图分类与用户行为存在着紧密的关联性。以上信息有助于我们更加了解用户意图,从而设计出更加符合用户期望的界面交互模式。
在意图类型与用户行为象限图的基础上,如果我们把目前主流的 AI 产品已有的介入方式做一个叠加的话,我们会发现意图类型+用户行为与 AI 介入方式存在着如下的关系。
这并不意味着每种意图都只能对应一种交互介入方式。在实际应用中,产品设计者需要根据具体的场景和需求来选择最合适的 AI 介入形式。
独立式
助手式
内嵌式
在用户与 AI 的交互过程中,一个普遍存在的挑战是用户对 AI 所具备的能力缺乏了解,这往往导致用户在提问时感到迷茫,既不清楚如何开启对话,也不确定提问的合理范围。鉴于这一现状,对用户的意图进行有效引导显得尤为重要,旨在帮助用户明确 AI 的能力边界,从而建立符合 AI 可实现范围的意图预期。
当用户首次踏入 AI 产品的世界时,可通过提供 AI 可实现意图预期的方式了解 AI 的强大能力以及具体用法。
用户意图表达常倾向于口语化的方式,导致 AI 无法高效识别与理解,并反过来影响了用户体验。为了引导 AI 与用户双方意图的准确匹配,我们在设计侧引入了「槽位设计」这一概念。什么是槽位呢?槽位可以理解为预定义的参数或变量,用于匹配用户表达的关键信息,如:日期、时间、地点等。这些信息对理解用户意图和提供准确响应至关重要,共同构成对用户需求的完整理解。例如,在智能助手应用中,用户说“提醒我明天下午 2 点开会”,其中“明天下午 2 点”就是一个时间槽位。为了准确的引导用户将这些关键信息表达清楚,我们需要在交互过程中有意识的、自然的引导用户进行对应信息的表达。
在蚂蚁实际业务的实践中我们发现就算是应用意图槽位匹配,依然存在部分场景匹配不到不全的情况,针对此类场景我们也整理了应对策略,去覆盖解决全量意图槽位匹配的场景,意图槽位匹配策略如下:
槽位设计的规则后续将在具体的会话设计篇目中有相关的具体应用,大家按需查阅。
行文至此,相信大家对于概述开篇提到“什么时候应该使用会话的方式?如何让 AI 理解用户的意图?”等问题有了初步的答案,接下来让我们进入角色设计篇、会话设计篇、混合界面篇中去进一步了解如何创造更好的 AI 产品体验。
为了更直观的了解并使用意图设计,我们将意图设计的流程划分为 3 个主要环节,每个环节都对应着特定的策略或组件。依次为:明确意图类型、提供意图预期、引导意图表达。有关意图设计的详细内容,请浏览 Ant Design X 官网 https://x.ant.design
角色设计让 AI 扮演了某种身份角色,来匹配用户的意图,进而保障与用户的互动是顺畅、符合预期的。角色设计让 AI 产品里隐形的体验得到优化和定义。这一部分,我们将探讨如何为 AI 产品赋予一个清晰的“角色”身份,以更好地提升用户体验。
在 AI 时代,角色已成为连接物理与数字世界的桥梁,角色不再局限于文学、影视等传统媒介中的虚构形象,而是进化为集成先进人工智能技术的智能体,活跃于各种人机交互场景中。这些智能角色不仅拥有精心设计的背景故事、性格特点、语言风格等传统角色属性,还具备学习能力、环境感知、情绪识别及响应等高级功能。
设定一个好的角色,对于 AI 应用的可用性、用户体验和效果都有很大的帮助,能够更好地满足用户的预期。随着技术的不断进步,这些角色还能通过机器学习不断优化自身,实现更深层次的情感交流与智慧共生,促进人与智能系统之间更加自然、和谐的交互模式,开启人机交互新篇章。
角色构成要素是塑造一个立体、真实、令人信服的角色所必需的基础。核心需要关注角色的性格内核和外在形象,必要时需要关注角色的专业能力。以下是主要的角色构成要素:
外在形象:包括外观特征、服饰风格、肢体语言及声音特点等,是其个性与背景故事的视觉与听觉体现,旨在直观传达角色特质,增进观众或用户的第一印象与情感共鸣。
专业能力:是指其在特定领域内掌握的知识技能、实践经验与解决问题的专长,这些能力支撑其职业表现,实现角色功能,解决场景中的挑战,展现其价值与不可替代性。
性格内核:是其行为、决策与情感反应的根本驱动力。包含人物核心性格特质、价值观、信仰动机和情感状态等。这些特质构成了角色在面对不同情境时的行为模式和反应。
当我们去塑造一个“好”的角色设计时,可能首先要考虑的是,“好”的角色设计的标准应该是什么?我们在项目实践的过程中做了大量的调试,会尝试在不同类型的 AI 应用下,不同的角色塑造方式对应的效果体验会是怎样的,更会关注如何才能更好地满足用户预期。基于大量的实验结果,我们将角色塑造的精髓定位于:一致性、自然性与情感化。
接下来,我们详细地探讨下角色设计所要遵循的三个原则。
为了增加角色的可信度和真实感,角色的视觉表达以及性格等特征需要在不同的场景中保持一致。具体来说,角色的行为模式和语言风格都应该符合我们对角色的基础背景设定。在与用户的互动中,不同的对话环境下,保持角色前后的一致性,避免用户产生跳出感,从而持续获得符合预期的互动体验。
1、为角色赋予独特且符合其背景的性格特征、行为模式、语言风格
性格特征、行为模式、语言风格的设定,都源于角色的故事背景,我们可以为角色设定详细而富有逻辑的角色背景,能让用户在了解角色时,感受到角色的深度和立体感。如一些“基本属性”,姓名、性别、年龄、昵称等,还可以为角色指定一个“职业”,如律师、医生、客服等,也可以为角色赋予一个背景故事,出生环境、成长经历、教育经历、家庭情况等。在背景故事的基础上,可以分别对性格特征、行为模式、语言风格进行更详细的剖析和设定,从而保证角色由内到外都有一致的体验。
2、为角色设计统一且符合其背景特征的形象和视觉表达
为角色设计统一且符合其背景特征的形象,能让用户捕捉并强化对角色的符号记忆,形成统一的印象。可以从形象类型、外貌特征、声音音色和行为动作等方面,详细设计角色的外在形象。
角色在与用户互动时展现出人类交流的流畅性和真实性。这涉及到语言表达的自然流畅,使用贴近人类日常对话的词汇和语法,避免机械和生硬的表达。同时,角色的行为反应也应自然合理,能够根据用户的输入做出恰当的、符合情境的回应。
最佳案例:
1、为角色赋予丰富且富有逻辑的自然语言
为 AI 设定清晰的角色和目标。这包括定义 AI 的性格特点、行为习惯以及它在特定场景中的作用。这些设定将为后续的设计提供基础。根据基础背景设定,可以继续为 AI 角色赋予更具体的技能、情感、语言等设定,让角色的定义更加丰富和立体。
2、为角色提供更真实的对话参考
我们还可以采用低样本的思路,为 AI 角色提供行为和语言参考,通过对用户视角的分析,依据不同的用户类型、语言环境、使用场景等,建立符合人类真实对话的样本库。
情感化是指在塑造 AI 角色时,赋予其理解和表达人类情感的能力,以便与用户建立更加深入和人性化的互动。这包括识别用户的情绪状态,并通过富有同理心且丰富的语言表达、个性化的关怀以及情感适应性以及富有感染力的视觉表现来响应用户的需求。
最佳案例:
1、为角色赋予更细腻的情感的适应性、互动的个性化、丰富的语言表达
细腻的情感适应性让虚拟陪伴类 AI 能感知并响应用户情绪,建立情感纽带,给予适时的支持与反馈;互动的个性化确保体验贴合每位用户的独特性,增强归属感与真实感;丰富的语言表达则让交流生动多彩,促进深层次沟通,使互动既智慧又充满人性温度。情感的适应性、互动的个性化、丰富的语言表达这三点共同作用,极大提升了 AI 的质量,满足用户情感与心理需求,构建了更加亲密和谐的人机交互环境。
2、为角色设定具有感染力的视觉的表现力增强情感化的表达
视觉表现力通过直观的形象设计与动态效果,增强 AI 的个性与情感传达,使用户在视觉上获得即时的情感共鸣。不仅丰富了交互的维度,还能够让非言语信息如表情、动作等成为沟通的重要组成部分,进而提升互动的真实感与沉浸感。精心设计的视觉表现力能够跨越语言限制,有效吸引用户注意,深化用户与 AI 之间的情感联系。
用户的模糊意图通过会话的方式来逐步与 AI 对焦、拆解,而用户的各项操作指令通常也以交互式卡片的形式贯穿于会话流之中。会话风格与角色的一致性,也是 AI 体验的关键。此外,每一次良好人机的自然会话体验背后,其实都隐藏着一套隐含的、系统性的体验规则。上述这些正是会话设计所需要定义的。
在明确用户的意图和 AI 角色定位之后,便可以着手设计对话流程了。这一过程既涉及了对用户意图的深入理解,根据用户意图,有助于设计出更加针对性和有效的对话;又涉及对 AI 角色的精确把握,根据 AI 角色性格,可以选择合适的语言风格,构建更加真实和有说服力的对话场景。
在人际交往的过程中,交流双方为了实现特定的沟通目标,往往会遵循一系列隐性或显性的规则。这些规则不仅涵盖了语言的语义层面,还包括行为和意图的表达,从而有效推进对话进程,实现预期的交际目的。
同样,在人机交互的语境下,对话系统也需遵循一套规则,以确保语义的准确传达、行为的合理展现以及意图的清晰表达。这些规则对于促进用户目标的实现、提升交互体验具有至关重要的作用。通过精心设计的对话规则,可以优化人机对话系统的性能,使其更贴近自然语言交流的流畅性和效率,进而为用户提供更加优质的交互体验。
对话交互组件是构建人机对话系统的核心内容,它们基于用户提出的问题,依据预设的规则生成响应。这些组件旨在准确传达语义、行为和意图,以促进用户目标的实现,构成了对话交互的基础单元。使用不同的对话交互组件可以形成多样化的对话表达方式:
对于同一个用户请求,可以通过不同的对话设计组件组合,形成同一语义,不同风格的对话:
因此对话交互组件的设计和应用是实现高效、个性化人机对话的关键。通过精心构建和优化这些组件,可以显著提升对话系统的性能和用户的交互体验。
在人机对话交互中,尽管对话交互组件具有自然性和操作路径简化等优势,但它们也面临着一些挑战,例如意图识别的不准确性可能导致错误回复,以及槽位信息的缺失可能需要多轮对话来补全信息。对话交互的核心目标是解决用户问题并提高效率,任何对话交互设计都应遵循这一原则。针对这些问题,我们制定了对话交互的通用性原则,旨在优化对话设计,发挥其优势同时规避劣势,以更有效地解决用户的实际问题。通过下述原则,可以构建出更加高效、准确且用户友好的对话交互系统。
在人机对话交互中,要确保提供给用户的是真实信息,建立用户和 AI 之间的信任,强调以用户为中心。
1. AI 需提供真实的信息:对话交互系统必须基于事实和数据提供信息,以确保用户能够依据真实、准确的信息做出决策。这要求 AI 在处理用户请求时,必须写明引用的数据源,并确保信息的时效性和准确性。
2. AI 需告知自己能力界限:AI 应明确告知用户其功能和限制,避免用户对 AI 能力产生误解。这包括在 AI 无法提供确切答案或执行特定任务时,诚实地向用户说明情况,并提供备选方案或建议。
3. 针对性信息提供:对话主体应具备针对性,针对特定的决策问题和决策者提供专门的支持。这意味着 AI 需要能够根据用户的具体需求,提供定制化的信息和建议,以增强决策的相关性和有效性
在对话设计中,使用的话术要易于用户记忆、理解及清晰表意,从而实现更加有效的沟通。
1. 任务相关性:对话内容应紧密围绕用户的任务和目标展开,确保信息的相关性,以提高用户对对话的关注度和记忆度。
2. 词汇的普及性:选用普遍熟悉且易于理解的词汇,有助于降低用户的认知负荷,使得信息传递更加高效。
3. 术语的一致性:在对话过程中,对特定术语或概念的使用应保持一致性,这有助于用户建立稳定的理解框架,避免混淆。
4. 句式的简洁性:避免使用复杂的句式结构,转而使用简洁、直接的表述方式,以便用户快速把握信息要点。
5. 清晰度:信息的表述必须清晰明了,避免歧义,确保用户能够准确理解所传达的内容。
在 AI 与用户的互动中,需要尊重用户,认可用户的感受。
1. 自然交流:应采用自然口语风格,使对话更加贴近日常交流,提高用户的交流体验,确保沟通的亲切感和易理解性。
2. 尊重与认可:在所有交互中,AI 将始终保持对用户的尊重,认可并重视用户的感受和观点,以建立信任和积极的互动环境。
3. 敏感话题回避:对于可能引起争议或不适的敏感话题,应予以回避,以免造成不必要的误解或冲突。
4. 审慎处理内容:对于用户未主动请求的信息或内容,应保持谨慎态度,避免过度干预或提供不适当的信息。
在 AI 时代,图形界面融合了自然语言会话等多通道交互,演变出新的形态。当意图、角色、会话这一切无形的体验规则被确定之后,它们最终也将承载于具体的界面之上。无形的体验融入到有形的体验之中,在这一部分里,我们提出的 Hybrid UI 正是要定义界面这一有形的体验,保障好 AI 产品体验的最后一道门槛。Ant Design X UI 资产正是一套基于 RICH 理念而生的、混合了多通道交互模式的 AI 界面资产,希望帮助大家轻松创造卓越 AI 产品体验。
随着人工智能(AI)技术极为快速的发展,在各个领域都出现了更多形式多样的人与 AI 配合的工作方式,这种工作方式涵盖了从简单的数据处理到复杂的决策制定等多个层面。由于人与 AI 的协作方式不断创新和拓展,自然也会不可避免地带来用户交互行为上全方位、深层次的变化。这些变化不仅体现在交互的频率上,还包括交互的方式、内容以及对交互结果的预期和处理等多个方面。人工智能带来了工具功能的强大,也随之提高了用户对智能体验的期望。
在人工智能时代下,用户行为的变化是:由原来人主要的执行行为(Do),可以增加人为 AI 来提供意图信息(Chat),让 AI 去执行任务,人可以感知 AI 做的过程和结果,并做辅助决策。
所以,用户行为的变化,意味着除了我们熟悉的图形界面和鼠标操作,自然语言对话成为了另一种重要的交互方式。同时,新的用户行为方式也带来了表达障碍的挑战,设计师需要思考,该如何兼顾用户的对话式体验和操作体验?界面载体该如何兼顾呈现呢?
基于以上思考,经过蚂蚁内部 50+ AI 产品的设计实践,我们推出了混合用户界面( Hybrid UI ),用以解答:AI 赋能的混合意图界面如何兼顾用户的对话式体验和操作体验?我们需要将原来传统 GUI 和 AI 时代下的自然语言带来的新型 UI 模式进行结合,以满足不同场景的界面表达诉求。
由 AI 赋能的 混合用户界面( Hybrid UI )适用于探索 AI 对话式界面和 GUI 操作界面的融合,Hybrid UI 可以搭载不同的关键 UI 元素,用于解决用户 Chat 和 Do 的意图表达诉求。基于过去一年业务实践,我们盘点了 50+ 企业级的 AI 产品,抽象概括了三类界面模式,基于用户不同意图,PD 或设计师可以快捷定位产品倾向的界面模式。
另外在资产层,延续 Ant Design 5.0,我们也希望提供一套便利的 AI 组件资产,可以方便 PD 或设计师快速搭建起适合的 Hybrid UI 。设计资产是无穷尽且不断变化的,但用户目的和设计目标相对是唯一的,所以我们从用户视角抽象出用户感知 AI 的四个阶段,沉淀出一套典型的 Hybrid UI 界面设计资产,即 Ant Design X ,让其可以不断生长。
我们与工程师合作,将 Ant Design X 设计组件转化为可复用的代码,最大限度地提高您的生产力和沟通效率。
原文:https://mp.weixin.qq.com/s/1AfjAYKIjKbSK8m5-zVRpg
既然来了,说些什么?