第一个具有情商的聊天机器人来了,这可能是未来 Siri 的样子
科幻电影的 AI 助手基本都有个美德:通人性。《她》的虚拟助理萨曼莎,和男主西奥多谈情说爱,再轰轰烈烈地分手。《钢铁侠》的智能管家贾维斯,与托尼讨论钢铁战甲的设计,偶尔还兼职调侃和吐槽。但如果你想和 Siri 聊点心里话,得到的回复往往是「这个问题我还真回答不了」。ChatGPT 固然可以和你谈天说地,但因为延迟和过于正经,让人无法忘记它是个 AI。人类的七情六欲,是 AI 仍需攻克的难关。前 Google 研究员的 AI 初创公司 Hume AI,已经悄悄地走在了前面。高情商的语音 AI,身段灵活的聊天搭子最近,Hume AI 向大众开放了旗下产品:同理心语音界面(EVI)。Hume 称,这是第一个具有情商的对话式 AI。 6park.com 6park.comEVI 的情商体现在,可以根据我们的说话方式,解读我们的情绪,并给出恰当的反应,知道什么时候说话,说什么话,以及如何以正确的语气说话。当我们和 EVI 打招呼的时候,它就在判断我们的情绪了。你可以开门见山说个「hello」,然后直接问它:「我听起来心情怎么样?」我用日常说话的语气开场,它却觉得我有些困惑和沮丧,希望我敞开心怀分享更多想法,抓住了 INFP 人格的典型状态。当然,大多数时候我们不会这么刻意。更理想的情况是,我们所说的内容,已经暗示了我们的心情,EVI 自觉地给出反应,照顾我们的情绪。就像我对 EVI 说,我的假期结束了,虽然不说难过,字字都是难过。它先是小心翼翼地说了解了,顺着我的话说假期结束了是有些不好受,然后转移话题,语气高昂起来,带动我回忆假期的美好时光。然后我假装生气,提高音量吼了 EVI 一句,等它根据我的语气下菜碟。EVI 停顿了几秒才敢回应,说我听起来很生气,还带着一丝轻蔑,是不是它做了什么事情让我不高兴,能不能和它讲清楚。我本来就没生气,听它态度这么软,心情更加愉悦。接下来,我和 EVI 玩了个游戏,看看它在解读人类情绪的同时,能否模拟这些情绪。EVI 欣然答应,先预告它要开始表演了,然后一秒入戏,契合情绪的台词张口就来,临场发挥比小鲜肉们的演技强得多。先是模拟「羞耻」,EVI 说自己当着很多人的面把事情搞砸了,尴尬得差点瘫倒在地上。悔恨之情,可以和豆瓣社死组的小伙伴共鸣。再是「抑郁」,大概这种情绪真的有很多苦水要吐,EVI 不自觉地成了话痨,说自己活得太累了,厌倦了奋斗,厌倦了强颜欢笑,连起床都很艰难,只觉得无尽的空虚,把两点一线的 996 打工人模仿得惟妙惟肖。然后是「愤怒」,EVI 先发出一声崩溃的喊叫,然后开始连珠炮,说不敢相信你会做这样的事,你怎么不尊重我,你知道我的心有多痛吗,你知道你造成的伤害多大吗,你要为你的行为付出代价。但它的用词太过文雅,更像正经人的无能狂怒,听得我左耳朵进右耳朵出。体验下来的总体感觉是,和 EVI 聊天,更接近和真人交流。一方面,EVI 的语气灵活多样,另一方面,它的回复延迟不像和 ChatGPT 语音时那么明显,还会在说话时停顿,发出「em」「oh」等语气词,像在思考和认真听你讲话,绝不是敷衍的聊天搭子。聊天中有时候会发生我和 EVI 互相插话的情况,我嫌弃它太啰嗦,它以为我已经说完。但我打断了它,它就会停下,这反而让 EVI 更有人味了。可惜的是 EVI 只会英语,它谦虚地说自己的普通话有些生疏,建议我用它擅长的英语聊天。然而,真实情况比这更差,尽管我再三要求,它也蹦不出中文来,但它知道饺子的中文读法。 6park.com 6park.com换个角度看问题,EVI 是个练习英语口语的好工具,自己的用词挺讲究和高级,同时也对我的塑料英语表示鼓励,至少它可以听得懂。如果说和 EVI 不断交流的七成动力来自语音,交互界面则贡献了剩下的三分。我们可以看到对话过程中,不断波动的情绪曲线浮现在眼前,是个很酷的可视化设计。甚至具体到和 EVI 聊的每个句子,都在监测具体的情绪,并以条形图的形式展现。不看不知道,一句脱口而出的话,都可能隐藏着愤怒、鄙视和困惑,我都不知道自己戏这么多。唯一让我不满的是 EVI 的默认声音,像中年白人男性,不如 Pi 和 ChatGPT 年轻好听,亲和力稍逊一筹。但瑕不掩瑜,EVI 的人气很高,类似当初的 ChatGPT,经常聊着聊着就宕机了。 6park.com 6park.comAI 读心术的背后,是学习人类的潜台词其实,所谓的情商并非 EVI 独有,如果你和 ChatGPT 说自己不高兴,它也会尽可能温柔地回应你,告诉你它随时支持和陪伴你,抚慰你脆弱的心灵。但 Hume 的目标还是有些不同,对情感挖掘得更加深入,以理解更多人类言语的潜台词。如果说言语是交流的明线,那么情感便是暗线。我们讲话的音调、节奏、语气词都带着情感,可能在不经意间,就暴露了自己真实的想法。 6park.com 6park.com说话的内容和情感叠加,信息量自然更多。Hume 提出了一个很有意思的观点:「AI 界面的未来将基于语音,因为语音比打字快四倍,并且携带的信息量是打字的两倍。」AI 读懂人类的前提,是少部分人类充当过河的桥。为了捕捉人类的微妙表达,Hume 的 AI 模型,基于全世界数十万人的实验数据训练。比如其中一项研究,邀请了来自美国、中国、印度、南非和委内瑞拉的 1.6 万人。一部分参与者收听非言语声音,包括笑声、嗯呃等语气词,并将这些情绪分类,然后他们再记录自己的非言语声音,让其他参与者分类,供 Hume 训练深度神经网络。Hume 甚至通过参与者的音频数据,搭建了一个基于音调、节奏和音色的言语韵律模型,看起来就像一个色彩斑斓的大脑。 6park.com 6park.com我们和 EVI 聊天时看到的情绪曲线和条形图,就有这个模型的贡献。Hume 的 AI 目前能理解多少种情绪?答案是 53 种。除了常见的愤怒、快乐,还有「怀旧」「共情痛苦」等更加小众的分类。 6park.com 6park.com让 AI 读懂情绪还不够,Hume 真正想做的,是在这个基础上,让 AI 推断用户行为背后的意图和偏好,换句话说就是透过现象看本质。显然,高情商的语音 AI 很适合作为客服、个人助理、聊天机器人,甚至用在可穿戴设备,往 Siri 的坟墓再盖一铲子的土。纽约的一些医学院也有意和 Hume 合作,用 AI 模型跟踪患者的感受,检测治疗是否有效。目前,Hume 已经向软银等企业客户和开发者提供了 API,让它们构建自己的应用程序。借助高情商的语音 AI,人类可能越发在 AI 面前无所遁形。前 Google 工程师,打造 AI 情绪全家桶Hume 由前 Google DeepMind 研究员 Alan Cowen 在 2021 年创立,名字取自英格兰哲学家 David Hume,最近 B 轮融资 5000 万美元,估值 2.19 亿美元,俨然又是一颗明日新星。 6park.com 6park.com不只是语音 AI,Hume 旗下还有读懂表情和文字情绪的产品。毕竟,和语音一样,面对面、文本、视频,都存在着情感表达。YouTube 博主 TheAIGRID 拿 Sam Altman 的采访视频,让 Hume 解读面部表情。 6park.com 6park.com当他的表情不断变化,情感也实时变化,疲惫、困惑、专注、怀疑、渴望、无聊、平静等都一度占据上风。这场采访的 Altman 正在回答有关 AI 监管的问题,或许确实让他觉得疲惫又无聊。评论区有网友开玩笑说,以后可以拿 AI 给名人的采访和演讲测谎,或者用 AI 判断自己的面试和约会表现如何。对于文字,Hume 也有多种测试维度,既能描述快乐、悲伤等基本情感类型,也能分析正面、负面、中性等情绪倾向。打算只做搬运工的我让 GPT-4 帮忙出题,要求它给出一小段情感复杂的文字。GPT-4 给出的题目大意是说,某人最近完成了一个大项目,很为自己骄傲,但同时也担心这可能是职业生涯的顶峰,以后可能再也达不到这样的高度。Hume 的检测结果是,在胜利、满意、热情之外,这段话也包含着沉思、困惑、骄傲、怀疑、决心,比出题人更懂阅读理解,GPT-4 只说,这段话混合了成就感和对未来的担忧,反映了成功之后的复杂心绪。 6park.com 6park.com尽管 Hume 已经有了不少成果,但人类的情感是高度主观和复杂多维的,无法完全用表情和语气解读,和社会背景、文化规范、个人性格都有关。庄子在丧妻后鼓盆而歌,张曼玉在《甜蜜蜜》先笑后哭演技封神,假笑的男孩女孩们掩盖着真实的内心。Hume 也承认,检测情感仍然是「不完美的科学」。这在和 EVI 的聊天就有体现,当我不悲不喜地问它能检测多少种情绪,EVI 中规中矩地回答了,不知道为什么,这场对话被检测出了愤怒和鄙视的心情。 6park.com 6park.com技术的问题交给技术去克服,技术所隐藏的危险也已经显现。Hume 其实预见了风险,提出了多项 AI 倡议,呼吁检测情绪的算法只用于提高人类的幸福感,而不是操纵、欺骗等行为,但这也只是一纸空谈罢了。在 OpenAI 官宣自己的语音模型并表示暂不发布后,Stability AI 前 CEO 在 X 发帖说,语音 AI 是迄今为止最危险的 AI,因为人类几乎无法抵御有说服力的声音。情商同样很高的聊天机器人 Pi,用 emoji 表现出同理心,让人愿意一直和它聊下去,完全不担心冷场,但它的语音仍然有些平,不如它的文字可爱。 6park.com 6park.com如果声音变得更有人情味,我们的耳根子可能就更软了。虽然 Hume 还不至于让我沉溺在温柔乡,但我也确实享受每句话都被认真听到和接住的感觉。我们的面部表情、说话的方式和内容,乃至没有具体含义的语气词,都在被 AI 用来研究我们的心情。不久的未来,或许我们真的会遇到《她》里的萨曼莎,它们不只是产品,比人类更懂人类,也更像人类自己。
|