谷歌 PAIR 指南精要

也许你已饱读理论,现在,设想你将着手设计一款 AI 产品,你会如何开始?何时以及如何将 AI 应用于你的产品?如何向用户解释你的 AI 系统?如何帮助用户建立对 AI 系统的信任?如何确保 AI 体验具有文化包容性和公平性?
Google 的《人与人工智能指南》(People + AI Guidebook)旨在帮助团队设计以人为本的 AI 产品,对于解决 AI 产品开发中的关键问题至关重要。
这份指南汇集了来自 Google 内部专家、行业领袖和学术研究的丰富数据与见解,包含深入的用户体验(UX)和机器学习(ML)指导,为 AI 产品开发提供了一个结构化的思维框架。

首先,深入探究用户真实诉求及期望,确保 AI 真正解决用户痛点;其次,负责任地收集与评估支撑 AI 决策的数据基础,奠定 AI 的公平与可靠性;接着,精心塑造用户对于 AI 能力的认知,避免误解与挫败;进而,通过清晰的沟通持续增进用户信任,构建稳固的人机关系;同时,识别并应对 AI 可能出现的异常情况,将挑战转化为改进的契机;并且,设计高效的反馈机制,实现人机协同进化。
接下来,我们将逐一展开这些关键细节。
01 识别用户问题定义成功标准
了解问题的本质
以人为本的设计始于识别人们真正需要帮助的问题。在制定解决方案之前,务必对希望解决的问题建立全面的理解,尽可能清晰地描述问题,并与代表目标用户的广泛人群验证你的框架:这个问题有多普遍?它对谁有影响?这个问题在不同的群体和身份维度上有何不同?问题的影响会随着时间而改变吗?

图左:Pixel Camera 使用 AI 真实呈现不同肤色,使产品更具包容性
图右:视障人士使用 Pixel 上的 Guided Frame 进行自拍
通过了解用户如何构建问题,才能根据用户研究进一步明确系统的目标,使 AI 系统的行为与用户意图保持一致。

PAIR 指南中使用的假想应用:Run – 跑步推荐系统
假设你正在开发一个跑步推荐系统,用户需求是“向我展示各种跑步路线”,通过用户研究可以将需求细分为:
- 希望推荐的路线能根据其当前的体能水平、目标、偏好等进行定制;
- 希望发现新颖、有趣、安全的路线;
- 希望获取科学的训练建议;希望获得持续的跑步动力;
- 希望能与现有设备如手表无缝连接……
据此可以确定产品的主要目标是为不同水平的跑步爱好者提供个性化、安全且富有激励性的跑步路线和训练计划,以帮助他们更好地享受跑步、达成健身目标并避免运动伤害。
判断 AI 是否能带来独特的价值
一旦确定了要解决的问题,就需要确定哪些可能的解决方案需要 AI,哪种类型的 AI 最适合解决你的问题,以及在你的产品中引入 AI 究竟会提升还是降低用户体验。
下表展示了AI 适用性:

对于个性化需求、需要预测未来事件、涉及大规模识别与处理的事物类别、依赖自然语言交互、通过生成多样性的结果来提升体验等场景,AI 解决方案会更适合。
AI 可以实现任务自动化,或者增强人类自主完成任务的能力,在确定 AI 如何帮助人们实现目标时,需要考虑如何平衡自动化与增强,有时最佳解决方案可能是两者的结合:
- 自动化:当机器、软件或功能在极少甚至无需用户干预的情况下执行任务时,就会发生自动化
- 增强:当机器、软件或功能增强用户自身的能力,以便协作发现新的见解和效率时,就会发生增强。
当人们缺乏执行任务的知识或能力、需要执行重复性任务、有些任务无需人工指导就能安全完成时,通常偏好自动化;当人们喜欢执行任务、需要或重视对结果的个人责任、情况风险高、特定偏好难以沟通时,通常偏好增强。

使用 Magic Eraser 消除或减少干扰
Google 相册中的 Magic Eraser 功能,允许用户轻触、涂抹或圈选对象以移动,这是一种增强,让用户保持对照片编辑的控制,而不是完全自动化。
创建交互设计策略
生成式 AI 产品的特点是灵活且开放的用户旅程,你需要识别出产品体验中用户与 AI 交互并建立心智模型的关键时刻,建立清晰可衡量的标准,从而确保安全和有益的产品体验。
下文将以 Google Workspace 推出的 Help me write 功能为例,演示如何创建交互设计策略。
尝试使用以下句式来拆解用户旅程并识别关键时刻:

针对每个关键时刻定义产品标准,可以从可接受的行为、不可接受的行为、不确定性阈值(即 AI 不确定性输出的处理标准)、漏洞(即风险点) 4 个维度来思考:


进一步定义用户体验(UX)和机器学习(ML)要求:

综上,Help me write 功能正是通过深入洞察用户内容创作中的关键时刻并以此为设计出发点,辅以严谨的交互策略和多维度标准,确保周全而细致入微的体验。

在 Gmail 中使用 Help me write
02 对齐用户需求,收集高质量数据
将用户需求转化为数据需求
为了进行预测,AI 驱动的产品必须教会其底层机器学习模型识别数据中的模式和相关性,这些数据可以是图像、视频、文本、音频等的集合。
获取或收集的训练数据以及这些数据的标记方式直接决定了 AI 系统的输出以及用户体验的质量。
最好从一开始就规划好使用高质量数据,确保尽可能与真实世界数据相似,并思考训练有效的 AI 模型所需的样本、特征、标签,系统地将用户需求分解为必要的数据集。
如果用于训练跑步推荐系统的数据集中缺少“坡度”特征,那么机器学习模型会将 3.0 英里的上坡跑与 3.0 英里的下坡跑同等对待,而人类对此的体验大不相同。
负责任地获取数据
数据是 AI 系统的基石,无论是使用现有数据集还是自行收集,请仔细考虑相关性、公平性、隐私性和安全性。
03 建立心智模型,有效管理预期
识别现有的心智模型
准确的心智模型,有助于用户设定对产品功能、限制、信任度、互动方式等的期望。
比如 Google Gemini,有些人拥有“搜索引擎”心智模型,使用它通过对话输入来进行搜索,而有些人拥有“人类朋友”心智模型,将其视为值得信赖的顾问。

向 Gemini 询问任何问题
了解用户目前使用的产品和技术,现有解决方案可能会为人们对你最终构建的产品形成最初的心智模型。
过去,人们习惯于在相册中通过关键词搜索,然后滚动浏览大量照片以翻找正确的一张。Google 相册推出的由 Gemini 驱动的 Ask Photos 功能在现有交互基础上扩展,用户可以使用更自然的语言提问,例如“展示我游览过的每个国家公园里最好的一张照片”或者“莉娜过去生日派对的主题都是什么”。用户对于功能的心智模型逐步由“关键词搜索”扩展为“能跨越时间和地点、理解复杂语义、甚至从照片细节中提炼信息的智能助手”。

在 Google 相册中使用 Ask Photos 功能
打造产品全生命周期的心智模型
心智模型可以教授或学习,例如在用户首次使用你的产品时进行引导,向用户简要描述你的产品功能以及它如何使用户受益。
同时,心智模型是动态的,会随着人们在不同情境下、与产品长期的互动而不断更新。当 AI Overviews 首次出现在 搜索结果顶部时,用户最初开始将 Google Search 视为一个“答案总结者”,而不是一个“信息收集者”,随着 AI 模式进一步引入多模态、追问和更高级的推理能力,用户对于 Google Search 的心智模型演变为“智能研究助手”以及“决策辅助工具”。

Google Search 的 AI 模式
明确产品的人性化程度
随着生成式 AI 产品的交互变得更加自然,人们会赋予 AI 系统类似人类的特征,例如意图、个性、意识、甚至社会性属性(模仿人际关系或扮演社会角色的能力)。
如果你的产品交互依赖明显的人类行为(例如对话),那么为 AI 产品添加拟人化的设计或属性(例如人格、语气、措辞等),可以使用户更容易理解和交流,但同时也可能会带来不合理的预期。
为避免过度信任,Gemini 界面会采用一些明确的提示,如“Gemini 的回答未必正确无误,请仔细核查。”旨在界定 AI 的能力边界,提醒用户 Gemini 仅是一个工具。又如在 AI Overviews 的答案中,Google 会标注引用来源,鼓励用户主动查证。
既要为用户提供人性化的互动方式,又要尽量避免预期不符,这是一个微妙的平衡。

Gemini 界面
04 提供清晰解释,持续校准信任
识别产品的关键信任杠杆
现实生活中,人们通过不同的机制建立信任:依靠某件事物或某个人获得成功的结果,或者通过长期的共同经历产生强烈的亲密感和同理心。
AI 系统也不例外,人们可能会在不同时刻依赖不同的“杠杆”来校准对 AI 输出结果的信任,比如能力水平(AI 完成用户任务的能力)、真实性(在极端的用户场景或在 AI 失败时表露 AI 局限性的能力)、善意(相信 AI 系统的输出结果能给用户带来好处)、表现力(AI 的表达方式、亲和力、个性等)、透明度(帮助用户了解 AI 预测来源的能力)等。
你需要确定哪些信任杠杆在关键时刻发挥重要作用,以此来识别和解决产品中影响用户信任度的体验。
使用 Google 相册中的 Magic Eraser 功能时,用户可能会担心:失去控制(AI 会改变原图?)、不透明性(AI 是如何识别并移除对象的?)、结果不完美(如果 AI 移除得不干净,能否纠正?)。因此,产品为用户提供了手动标记、随时撤销及退出的自主权,通过实时高亮识别出的可移除对象,将 AI 的操作过程可视化,并且持续提高功能成功率,充分运用透明度、可控性、可靠性信任杠杆,让用户始终拥有掌控权并对 AI 保持信任。
需要注意的是,缺乏信任和过度信任都可能会带来不良后果。理想情况是,随着时间的推移,通过持续的交互和反馈,根据系统的功能和局限性,帮助用户逐渐建立起适当的信任度。

适当的信任:用户预期与实际产品能力相符
制定长期衡量信任的计划
通过制定衡量策略,有助于了解信任何时增长或下降。
衡量指标需要满足:敏感(能够根据产品变化而浮动)、有意义(可以解读出对产品的信任程度,比如积极信心、怀疑、警惕、反感等)、可泛化(在不同场景下,都能保持有效)。
例如,接受率(AI 生成的建议中未经修改就被接受的百分比)常被用来衡量短期信任。这一指标能够直接反映用户对于产品变化的态度,当产品改进能生成更准确的建议时,用户接受率随之上升,表现出积极的信心;当产品更新后生成结果质量下降,接受率随之下降,意味着怀疑或警惕。
有效的衡量策略需要评估用户态度、行为的短期和长期指标。
例如,接受率随着时间的推移,在不同的用户群体中可能会出现不同的变化。对于高级用户,随着他们逐渐学会更敏锐的判断力,接受率最初可能会下降,然后随着他们学会操控 AI 以获得更好的结果而逐渐上升,这表明用户对 AI 建立了适当的信任,达到一种理想的协作状态。对于偶尔使用的用户,可能保持稳定的接受率,这表明用户没有与 AI 建立起长期的信任关系:可能是因为他们未能从 AI 的持续改进中获益而始终不信任 AI,或者是由于产品未能有效传达 AI 的能力和局限性,导致用户的心智模型停滞不前,也有可能是因为用户仅仅将其视为一次性工具,没有积极参与到与 AI 的协作过程中。
设计有助于理解和行动的解释
用户对于产品信任关系的建立是缓慢的,当预期未得到满足时,很容易失去。产品内部提供的解释是帮助用户建立适当信任度的关键。
帮助用户理解 AI 输出并校准信任度的解释取决于产品体验中的信息和交互线索。

PAIR 指南中使用的假想应用:PlantPal – 一款植物识别应用
植物识别应用程序 PlantPal 可能会描述 AI 系统进行预测的主要根据是叶子的形状、颜色、纹理以及耐寒区,由此用户知道分享他们的地理位置可获得更准确的结果。PlantPal 可能会警告用户,植物的不同部分对人类、猫和狗的毒性可能不同,因此用户知道需要向 PlantPal 提供更多信息以全面了解该植物。
05 诊断错误与引导恢复
定义错误和失败
当 AI 系统的行为不符合预期,或者生成的结果在用户看来不准确或不完整时,就会出现错误。
用户对“错误”的感知与其对 AI 系统的期望密切相关,包括“系统错误”(用户认为系统无法满足其需求)、“用户错误”(用户交互导致系统无法正确处理)、“对齐错误”(AI 对用户意图做出错误假设)。
尤其需要注意诊断用户无感知的错误,比如“意外之喜”(系统预测不佳但结果有用)和“后台错误”(系统未正常工作但用户未察觉)。

PAIR 指南中使用的假想应用:Plannerific – 一款活动策划应用
在用户向活动策划应用 Plannerific 询问菜单上是否有贝类时,AI 错误地向用户报告有,但实际上并没有,这意味着用户会错过一个实际上对他们没有危险的菜单选项。假设菜单上确实含有贝类,但 AI 却漏掉了,AI 会向用户报告该菜单不含贝类,但实际上含有,用户会误以为该菜单是安全的,这可能会严重危害他们的健康。
失败通常比错误更严重,用户恢复起来也更具挑战性,失败通常是由 AI 系统的固有限制或进程停滞引起的,例如无法处理大量用户请求等。
识别错误来源
错误可能源于各种因素,包括用于预测和训练 AI 的数据、用户输入、模型性能等等。

在 Google Photos 中按人物进行搜索
Google Photos 的面孔分组功能,可能会将面孔相似的两个人错误地归入一个面孔分组。这可能是由于训练数据的偏差,比如某些人种或面部特征的表示不足。
用户利用 Chrome 搜索“最好的手机”,但没有说明预算、用途、偏好等,因为用户输入不明确,AI Overviews 只能给出宽泛的推荐。
针对每种类型的错误,探索缓解措施以及减少或预防错误的策略,有助于创建更稳健、更用户友好的 AI 产品。
寻找优雅的解决方案
以谦逊的态度解释产品的局限性,并帮助用户培养验证的习惯,可以缓解错误的风险。
用户在向 Gemini 提出“为周六寻找一个宽敞、便宜的户外场地”时,Gemini 会回复:“请解释一下‘便宜’的含义?您可以指定一个预算范围,或者参考价格。”
在使用 Gemini 进行膳食规划时,Gemini 会提供食谱相应网站方便用户访问,引导用户在继续操作之前确认 AI 提供的信息。

借助 Gemini 进行膳食规划
当缓解措施失效时,可以通过交互式方案来引导用户克服错误并有效地继续执行任务。
当 Gemini 生成的食谱不符合用户个人偏好时,Gemini 会提供“替换”操作,同时向用户提供搜索建议:“快速简单”、 “纯素食” 、 “高蛋白”……

Gemini 进行膳食规划调整
极端情况下,需要将控制权从 AI 交给人类。
使用 Workspace 的 AI 功能时,无论 AI 生成的内容质量如何,用户随时可以进行编辑/删除/重写,始终拥有最终的决定权。

在 Gmail 中使用 Help me organize
要认识到错误的影响取决于具体情况。高风险情况下的错误(例如健康或财务)需要比低风险情况下的错误(例如头脑风暴)更强有力的安全措施和更清晰的恢复路径。确保你提供的帮助和恢复策略与错误的潜在严重性相匹配。
05 设计反馈机制,共塑有益体验
根据用户利益来设计反馈
一般来说,收集反馈的机制有隐式和显式两种。隐式反馈是指来自产品日志的用户行为和互动数据,显式反馈是指用户有意对 AI 的输出进行评论。
无论哪种反馈,想要让用户提供有效的反馈,需要让用户理解正在收集哪些信息、目的是什么以及对他们有何益处,否则他们可能会避免反馈或者给出毫无意义的反馈。
如果让用户知道他们的反馈将如何以及何时能够影响 AI 以及改善使用体验,将有助于建立产品信任。

PAIR 指南中使用的假想应用:Run – 跑步推荐系统
跑步推荐系统 Run 根据用户反馈并告知用户已立即调整推荐路线,这样用户下次会更愿意提供反馈。
将反馈与 AI 改进相结合
强烈而明确的用户反馈有助于产品改进,但有时用户反馈可能会令人困惑,比如一条公开的点赞,并不意味着用户想看到更多相同的内容,观察长时间段内的互动情况有助于提炼出更准确的行为和意图模式。
赋予用户控制权
人们需要根据自身需求控制产品的功能,因此请保持反馈设计的简洁性,并允许用户拒绝。

Pixel 的诈骗检测功能
当 Pixel 检测到与诈骗相关的对话模式时,会警示用户来电可能是诈骗,用户可以选择“挂断来电”接受建议,或选择“不是诈骗”拒绝建议。
用户的偏好可能会随着时间而改变,因此应该赋予用户调整偏好的能力:允许用户调整之前的选择,或者将 AI 重置为默认的非个性化版本。

在 Gemini 中设置与个人生活和偏好相关的信息,以获得更有用的回答
在 Gemini 中用户可以设置并保存与其个人生活和偏好相关的信息,如“我是素食主义者,所以不要推荐含肉的食谱”、“回答完毕后,请附上西班牙语翻译”等。用户可以随时修改或添加信息,或者清除所有记忆。
终章 构建以人为本的产品
Google 的 PAIR 指南为产品团队从零开始构建 AI 产品提供了清晰而实用的路线图。它将以人为本的设计定位为产品成功的核心,这意味着 AI 不应仅是技术叠加,而应始终将用户置于设计的核心。
指南系统性地覆盖 AI 产品的整个生命周期:从深入理解用户需求、负责任地收集数据,到精心管理用户预期、构建产品信任,再到优雅地处理错误,并设计有效的反馈机制,每一步都旨在确保 AI 产品真正赋能用户、提升体验。
之前曾探讨过,Google 与微软、苹果、IBM 在公平、安全、透明的核心原则上存在共识,但侧重点有所差异。Google 的 PAIR 指南着重于创建有益 AI 体验以增强工作、娱乐并激发创造力,尤其是生成式 AI 体验,更深层次地关注人与 AI 之间的动态交互,强调通过持续改进和用户协作来共同塑造 AI 体验。
唯有将以人为本的原则贯穿始终,鼓励用户参与到 AI 的共同塑造,才能平衡效率与用户的掌控感,不断巩固用户对 AI 的信任,进而开发出真正有价值、体验卓越且值得信赖的 AI 产品。
作者:HAI Design
扫一扫 微信咨询
商务合作 联系我们

微信扫一扫 