投资人工智能：自然语言处理得到回报

2018-10-08 15:05:30 来源：网易智能

在过去的18个月里，Arthur Coleman在Acxiom Research的团队已经深入地研究了一种叫做自然语言处理(NLP)的人工智能。其中最激动人心的NLP项目叫做ABBY——她是Acxiom Research的第一个人工智能员工。

Arthur Coleman有两个关于NLP的想法：

第一，围绕NLP的开源技术非常强大，你可以轻松地“站在巨人的肩膀上”，仅仅依靠一个小型的、高度集中的团队和平台就能创建出令人惊讶的高效的NLP应用程序。

第二，即使有这么多强大的技术在你的指尖，创造一个前端NLP(即“对话”，这是大多数人在想到人工智能时所想到的)需要远见和毅力。远见，即能够看到技术的力量，并将其出售给你的内部利益相关者。毅力，因为在你看到你需要开发的一些更高级的能力的回报之前，它需要大量的前期投资。你还必须愿意学习面向消费者的营销人员的技能，并处理那些已经在你的用户群中被保留的行为。

后端NLP更容易，并提供更直接的ROI（投资回报率）

基于NLP的改进不需要你的业务有对话前端。这些后端驱动或语言分析项目通常在很短的时间内提供最快、最具成本效益、最高回报的使用NLP的方法。这些项目一般由两到三个人的团队在几个月的时间内完成。

在最近的一次Strata Conference大会上，Cloudera的机器学习总经理Hilary Mason在一次主题演讲中展示了后端NLP的一个很好的例子。Mason解释了Cloudera如何降低呼叫中心的成本，并通过NLP提高客户满意度。他们从自己公司的呼叫中心采集了记录电话的统计样本，并将其转录成文本。他们对这个语料库进行了文本分析，寻找与特定问题和问题解决步骤相关的语音模式。然后，他们将基于分析结果的预测模型部署到他们的呼叫中心系统中。当客户来电时，底层的算法会识别出语音的模式，主动地向客户服务代推荐一个可能的解决方案。Mason说，这种做法减少了呼叫中心的呼叫次数，并且提高了客户满意度(我的团队在我们自己的类似项目中也看到了同样的积极结果)。

会话NLP成本更高，需要更长期的远见

一旦你专注于会话NLP(或AI)，并希望机器与人类互动时能够像普通人类一样使用语言，流畅而随意，那么这个问题在技术上变得具有挑战性，并且非常昂贵。在这里我说的不是聊天机器人。聊天机器人是一种非常简单的机器，它可以在特定的任务中遵循相对结构化的对话，并且只在特定的预定义环境中使用，比如Facebook Messenger。而会话NLP(AI)是完全不同的。与Alexa类似，它们是无处不在的(无论你在哪里)，可以处理多个应用程序(也称为意图)，并且可以处理多种形式的回复，即使是同一个人对相同语句的不同回复。它们也可以快速地改变情境——比如从提供关于今天天气的信息到餐馆预订。

现在已经存在多个开源平台，允许团队在合理的时间框架内构建一个功能性的(如果不够完善)AI，带来正的投资回报。苹果、谷歌、微软和亚马逊等公司都投入了数亿美元，依靠一些世界上最优秀的博士的努力，进入了先进的NLP界面。这些开源库可以让一个由3-4人组成的团队在大约一年的时间内为一个简单的会话AI构建一个基础平台，大约花费50万美元。这个早期的平台有一些简单的应用程序，没有对用户的预先对话意识(因为这需要一个带有安全系统的接口)，也没有对先前用户会话的记忆。在这里，根据意图的复杂性，可以提供从1万美元(例如查询天气)的简单应用程序到2.5万美元(例如会议室预订)的更为复杂的应用程序的新功能。

我们认为这个平台是一项投资，可以在两年的投资回报期内推广。由于我们希望在此期间增加48个新的应用程序，如果选择分期偿还，则会给每个应用增加1万美元的成本。这是我们为一个新应用控制成本的一种方式。例如，允许人们在丢失/被遗忘的密码或其他简单的IT问题上进行自助服务，可以节省至少一年的IT人员的时间。通过使用Excel中的IRR函数进行一些快速计算，假设这个角色每年花费10万美元，那么这个“复杂”应用程序的一年期投资回报率就会达到260%，这就值得去做了。成本只是我们用来确定意图构建的一个因素，有时我们甚至在没有很高的ROI的情况下进行投资。但我们确实把它作为指导方针。

下表提供了一些值得研究的开源工具的概述：

终端用户和开发人员的采用

一个会话AI平台需要两方面的采用才能成功。一个是终端用户，另一个同样重要的是开发人员。

大多数终端用户采用一种新技术都是一个艰难的过程。当用户不愿意放弃现有的工具以及根深蒂固的行为时，尤其困难。向消费者提供新技术的人都非常清楚这一点。他们在自己的商业模式中建立了大量的采用曲线和相关的营销预算。但是，许多公司的开发人员，甚至是企业的产品经理，尤其是B2B市场的产品经理，对消费者采用曲线的经验很少。开发人员没有把它纳入他们的计划，同样重要的是，他们的经理也不理解这条曲线。许多组织缺乏足够的耐心和能力来获得广泛采用会话接口所需的持久消息传递和销售技巧。

其结果是，许多前端NLP项目从未实现过采用，这限制了进一步的投资。

我的团队通过我们的ABBY项目克服了这一挑战，将ABBY的意图部署到其它典型的新产品营销问题上——我们安排了一个兼职产品营销人员来开发和执行内部采用的营销计划。我们还发展了一组早期的采用者/测试者，他们明白他们的角色的一部分是向他们的同事宣传新的意图。最后，我们的整个团队都有一个任务，就是在与组织中的人进行互动时，尽可能地宣传ABBY的能力。就像其它所有独立的小公司一样，团队中的每个人扮演销售人员的角色。

但无论你在内部营销上执行得多么好，前端NLP仍然是一个长期的发展过程，随着开发人员、人工智能和终端用户的交互，终端用户的行为和人工智能的能力都将随着时间的推移而不断发展。正是出于这个原因，为组织中的开发人员开发一个NLP平台是至关重要的。就像在一个开放的市场中一样，没有一个团队能够构想或构建所有对其他用户或公司来说很重要的应用程序。增强采用的一种方法是让很多团队为会话前端构建NLP应用程序。因此，开发人员的采用是采用周期中的第二个关键元素。我们使用许多工具来促进这一过程。

我们通过团队会议、一对一的会议和NLP特别兴趣小组积极地接触到开发人员。我们也有NLP项目可供我们定期进行季度“黑客马拉松”活动。

功效和任务导向设计

这就引出了另一个设计问题——功效。投资的目的是使现有的经验更有效率、更有成效，或者两者兼而有之。如果人们使用人工智能对话反而需要更长的时间，那么人们就不会去使用。当终端用户有着根深蒂固的行为习惯，需要强大的、有意识的额外努力才能让他们改变行为的情况下，这一点尤其正确。在我们的例子中，我们的通讯录项目是一项很好的投资，因为在以前，从我们的内部系统获取一个人的联系信息很耗费时间并且很不方便。一旦人们使用ABBY帮助查找通讯录几次，他们就开始转换习惯。房间预订也是如此。但是当用户通过ABBY执行谷歌搜索时，我们得到了非常负面的反馈。人们认为我们投资一个app非常愚蠢，因为人们可以很方便地切换到浏览器并进行搜索，以一种他们能理解的格式获取更强大的信息内容。

杀手级应用在哪里？

我经常会问这样一个问题：“杀手级应用在哪里?”对话AI正在取得实质性进展的一个领域是客户服务。但是自助客户服务这个更广泛的类的实例才可以被视为判断标准。这类问题可能定义了什么可以或不可以成为对话AI的杀手级应用。向以任务为导向的用户提出的问题是：“他们想要什么时候或者需要与人工智能进行详细的讨论，以完成一个目标?”答案是双重的。一个方面是任务的解析需要用户和“助手”之间的多次互动。第二个方面，当任务不确定时，需要很多的单词来描述，因此用户会试图将一个“足够接近”的描述串在一起，让接收者在实际项目中进行猜测。计算机服务就是一个很好的例子。另一个例子是通过在线界面购买类似数据的复杂产品。第三个例子是数据的研究和数据表，可以被认为是“数据的诊断”，以确定信息的结果。在所有这些情况下，终端用户必须进行“范围内的练习”，他们从一个宽泛的概念或一组可能性开始，通过一系列的交互步骤，限制一系列的可能性，直到找到最终的结果或得出结论。

然而，现实是，可能没有杀手级应用。几乎没有什么应用程序被每个人使用。考虑到像通讯录这样的通用意图都需要改进，想象一下，要想获得针对一组用户的意图是多么的困难。一个类比就是手机。在移动领域，几乎没有通用的应用程序。大多数人使用10-15个应用程序。但每个人具体的10-15个应用都是独一无二的。应用程序的使用是非常特殊的。这与组织内的应用程序非常相似，需要注意的是，个人的角色与他们最感兴趣的应用有着很强的相关性。这就是为什么拥有一个平台，以及由开发人员采用是如此的重要。每个部门都可能有自己的“杀手级应用”，最终用户会欣然接受，而在这种环境下，开发人员将最清楚地看到需求。

用户体验

AI有机会给人留下第一印象。

使用AI的用户体验是是否被采用的最关键的因素之一，而对于那些不擅长建造AI的人来说，这一评价是最低的。再一次，我们又回到了消费者产品设计的规则：你有机会给消费者留下第一印象，他们通常对有缺陷或不完整的功能几乎零容忍。太多的团队没有直接经验为消费者开发产品，他们会发布一个有缺陷的MVP，认为用户会原谅界面，而注重表现更好的功能。事实恰恰相反。许多人工智能项目都失败了，因为开发团队在发布它之前，在所有已部署的平台上都没有足够的接口(也就是说，移动设备与桌面非常不同)。用户的体验很差，就再也不会回来了。确保良好的体验可以像项目经理把他或她自己放在新用户的鞋子里一样简单，训练所有可能在人工智能上使用的基本短语，并修复那些在发布之前无法理解的短语。

在我看来，人工智能项目失败的最大原因是它们的创造者在发布之前没有进行足够的训练和对话。

有一个类似人类的界面，但不要太人性化。

人工智能不需要和人一样的能力。我的团队不断提醒我，人们应该做他们擅长的事情，而AI应该补充这一点。它们应该被创建来利用它们所运行的计算环境的优势。

话虽如此，但获得采用需要用户与人工智能互动，这在他们看来是很自然的。这有三个方面：

1. 输入和响应的灵活性。

人类并不总是用同样的词语来表达同样的意思。他们对事物的反应取决于一天的时间，他们的情绪状态，他们在与谁交谈，以及其他许多因素。人工智能还必须能够以这种方式做出反应，让用户看起来足够聪明，从而让用户相信，与机器对话是值得的。一个特定短语可能会有十个变体，比如“我能帮你做什么?”似乎足以模仿人类语言的多样性。

2. 情感背景。

与此同时，我们给ABBY设定了一个情感背景。因此，她不仅会说不同的短语，她的回答也会被一种情绪设定所左右，从快乐到悲伤，以及对随机短语的影响。举个例子，如果我说“早上好，ABBY”，当她被设定为开心时，她会回答“早上好，Arthur。今天天气真不错。”如果当天她的情绪设定是悲伤，她可能会回应“嗨，Arthur。遗憾的是，我今天很倒霉，但希望今天过得愉快。”

另一个情感背景的例子是，当有人对ABBY说不尊重的话，或对她咒骂，或者使用侮辱性的语言，冒犯任何员工或者是Acxiom公司的政策或文化规范时。在这种情况下，ABBY被训练成以一名Acxiom员工的身份作出回应。开始，她会表现出恼怒的情绪：

“请不要那样对我说话。我天生非常敏感，不喜欢辱骂或不恰当的语言。”

如果辱骂的语言继续存在(这是因为用户喜欢测试ABBY的极限)，那么就会有一种不断升级的对话流，伴随着越来越多的情感内容。如果辱骂行为在几个步骤之后没有停止，ABBY就会给人力资源部门发送邮件，报告辱骂的语言，并通知用户她已经向HR汇报。

3. 恰当地处理它不懂的东西。

我们经常提醒终端用户，ABBY只有一岁半，他们应该明白她有理解的局限。可能有很多她不理解的短语，特别是在早期部署一个新的意图，而这个意图又很重要时。除非我们相应地设定他们的期望，否则他们可能会预料到她会像一个拥有完整语言能力的成年人一样做出回应。因此，我们提醒用户，她的能力是通过一个三步反应概要来限制的：

1. “很抱歉，我不明白这一点。你能重新措辞吗?”

2. “很抱歉，我还是不明白。你能再试一次吗?”

3. “我才一岁半，还有很多东西要学。请对我耐心点。我已经把这个谈话记录下来，供我的团队审阅。请明天再来，试试你的问题。在你的帮助下，我应该能更好地回答你的问题。”

最后，我们会有意识地做出相应的设计，使ABBY不会显得太人性化。谷歌最近了解到，制造一种不能与人区分的人工智能对很多人来说是“令人毛骨悚然的”。总有一天，智能自动化将会如此彻底地融入我们的日常生活中，我们会简单地认为，最简单的任务——比如餐厅预订——将由机器来处理，而不是人。但在那之前，人们会想要知道他们什么时候在应对一个机器，而不是一个人。ABBY有一些内在的设定，表明她不是人，比如她的词汇量是有限的，而且她的一些用词故意听起来有点像机器。

以任务为导向。

用户不愿意与典型的商业AI闲聊，除非是在最初的10分钟，他们主要是出于对人工智能的“类似人类”的好奇。除此之外，人们只是通过人工智能来完成任务并继续其它工作。不要把太多的时间浪费在所谓的闲聊的意图上。人们很少使用它们。把你的设计集中在尽可能有效地完成特定的任务上。不要要求人们记住特殊的代码或输入长字符串，尤其是在移动设备上。使用人类能理解的最短的文本。

例如，让ABBY在移动设备上预订会议室，你所需要输入的就是“预订房间”。这将为你找到一个从现在到半小时以后开放的房间。为什么?因为当人们在移动设备上输入“预订房间”时，他们通常会是大楼周围跑来跑去，急切地寻找一个开放的房间。ABBY用自然语言很清楚地回答，所以用户不需要猜测发生了什么(例如，开始时间或预订的时间)。

“我已经为你预订了 Mt. Shasta，时间为25分钟，截止到今天下午3:30。它能容纳4人，位于17楼东侧。”这是一种优雅的、以任务为导向的用户体验，对用户来说是高效的，并且让ABBY看起来很智能。当然，如果用户愿意的话，他们的命令也可以很冗长，而且对于那些喜欢精简的人来说，也有一些简短的代码，比如“预订房间T 2 1 SF”，意思是“今天下午2点在旧金山预订一间房间，时间为一个小时”。

为无处不在而设计。

人工智能需要存在于我所在的任何地方——一个无处不在的伴侣——除非技术加速。因此，它需要在我可能工作的任何环境中都可用。Slack(企业聊天工具)这样的应用程序是一个很棒的第一环境，因为终端用户整天都在使用Slack，同样重要的是，Slack还拥有一款应用于平板电脑和移动设备的应用，人们也经常使用。人们整天都在使用浏览器，所以在浏览器中或附加在浏览器上的界面也很重要。更普遍的是，在计算桌面的背景下，人工智能可以为许多应用程序提供一个接口。它可以存在于写字楼的自动登记系统上，也可以存在在会议室外面墙上的平板电脑上。或者被动地待在像Bluejeans这样的会议应用中，例如，用户的请求(在这个特定的用例中)打开文档或搜索谷歌的信息。最后一个例子展示了语境的力量。因为人们已经在说话了，所以对人工智能说的话是不中断的。

以无处不在为目的的设计比在特定环境中的人工智能更重要。这也意味着在特定的环境下需要进行调整，从而做到对用户来说是最有效的。

记忆在人工智能中的作用。

我们被称为有“智慧”的一个关键因素是我们能够记住我们过去所做的事情。如果你不记得昨天和某一个人的对话，那么今天和他交谈时他会觉得你很奇怪。类似地，AI需要有能力记住过去与用户的交互，原因如下。首先，它是智力、人工或其他方面的预期功能。第二，它暗示了对终端用户的真实认可：“我认识你，因为我记得我们过去做过的所有事情。”第三，过去的交互历史能够为终端用户带来更有效的交互。

客户希望人工智能能够记住他们之前的交互和购买，这样他们就可以很容易地回溯，从而节省了重复先前工作的时间。第四，过去的交互历史能够促进预测的改进、以及更智能、更有效的交互，更好的服务质量和更优的销售方案。过去购买过某些商品的人可能更有可能在未来再次购买，或者以后可能会购买其他相关产品。

向人工智能添加内存是当前技术的前沿。我们将会在未来的12-24个月里看到AI出现重要的记忆。

结论

我们离拥有电影中所看到的质量的人工智能还有很长一段路要走，所以别指望Jarvis会在你的桌面上出现。但是，可否使用自然语言处理来构建应用程序和接口，以加快和简化业务，同时提高客户满意度以获得合理的成本?当然，这要感谢已经提供的开源工具的数量。

使用后端NLP技术和前端会话接口都有好处。每一个都为业务提供不同种类的功能。

NLP和人工智能只会成为我们企业的一项日益重要的技术，企业如果忽视它们将会很危险。

Arthur Coleman是Acxiom研究公司的总经理。他专注于利用自然语言处理、人工智能/机器学习、区块链、数字指纹等新兴技术加强跨渠道营销。他还积极参与了IAB技术实验室制定消费者隐私的行业标准。