2019 年数据和人工智能全景图：主要技术趋势

人工智能| 2019-07-11

本文最初发布于 Matt Turck 的个人博客，经原作者 Matt Turck 授权由 InfoQ 中文站翻译并分享。

《2019 年数据和人工智能全景图》的第一部分涵盖了有关数据和人工智能的社会影响的问题，包括全景图本身。在第二部分中，我们将深入探讨数据与人工智能的一些主要行业趋势。

数据和人工智能生态系统仍然是最令人兴奋的技术领域之一。它不仅有自己的爆炸式的发展势头，而且还推动并加速了许多其他领域（消费者应用、游戏、交通等）的创新。因此，它的整体影响是巨大的，远远超出了下文的技术讨论。

当然，没有任何有意义的趋势会在短短一年的时间内展现出来。而接下来要讲到的许多趋势都是经过多年酝酿而成的。我们将重点讨论 2019 年特别加速的趋势，或者在行业对话中迅速突出的趋势。

我们将从左到右大致遵循全景图的顺序：基础架构、分析和应用。

基础架构的趋势

我们在基础架构领域中看到三大趋势：

是第三波浪潮来了吗？从 Hadoop 到云服务，再到 Kubernetes。
数据治理、编目、沿袭：数据管理越来越重要。
人工智能专用基础架构堆栈的兴起。

数据基础架构世界在继续快速发展。这里的主要方向是从 Hadoop 到云服务再到混合云 / Kubernetes 环境的三个阶段过渡，这一过程已进行多年，但似乎正在加速。

Hadoop 在很大程度上是大数据世界的“先驱者”，可以追溯到 2003 年 10 月的一篇论文。作为使用计算机网络分布式存储和处理大量数据的框架，它在数据生态系统的爆炸式发展中发挥了绝对核心的作用。

然而，在过去的几年里，宣布“Hadoop 已死”已经成为行业观察者的一项运动。由于 Hadoop 供应商遇到各种各样的麻烦，这一趋势今年进一步加速。在撰写本文时，MapR 已经几乎濒临关门停业，不过，现在可能已经找到了买家。最近 Cloudera 和 Hortonworks 刚完成高达 52 亿美元的合并，在 6 月份的一个艰难的日子里，由于令人失望的季度收益，股价暴跌了 40%。Cloudera 已宣布多种云计算和混合产品，但尚未推出。

由于来自云平台的竞争，Hadoop 正面临越来越大的阻力。Hadoop 开发的时候，云计算还不是一个严肃的选择，大多数数据都是本地部署的，网络延迟是一个真正的瓶颈，因此保持数据和计算共处一地还是很有意义的。但现在，世界已经改变了。

然而，Hadoop 不太可能很快就会消失。它的采用可能会减缓，但由于它在企业中的部署规模之大，将使它在未来几年内能够保持惯性和持久力。

无论如何，向云端过渡的趋势显然正在加速。有趣的是，在我们与《财富》美国 1000 强企业高管的谈话中，我们得到一个印象：2019 年似乎真的发生了转变。在过去的几年里，尽管人们都在讨论云，但真正的行动却是本地部署（on-premise），尤其是在受监管的行业。他们认为这几乎是一个肮脏的秘密。《财富》美国 1000 强企业的许多高管都在积极转向云计算，其中一部分活动涉及从传统 Microsoft 商店转向 Azure。

因此，尽管云供应商的规模已经非常庞大，但它们仍在继续快速增长。2018 年，AWS 实现了 257 亿美元的收入，比 2017 年的 175 亿美元增长了 46.9%。Microsoft Azure 的收入没有单独披露，但截至 2019 年 3 月的季度同比增长了 73%。这虽然不是一个完美的对比，但 AWS 的收入同比增长了 41%。

随着云计算应用的深入，客户开始因成本问题而踌躇不决。在世界各地的董事会会议室里，高管们突然注意到一个曾经很小的项目，现在这个项目发展得非常迅速，就跟滚雪球似的：他们的云账单、云计算确实提供了敏捷性，但它往往要付出高昂的代价，特别是如果客户没注意计价器或无法准确预测他们的计算需求时。像 Adobe 和 Capital One 这样的 AWS 客户的故事有很多，他们的账单在 2017 年到 2018 年的短短一年里增长了 60% 以上，远超过 2 亿美元。

成本，以及对厂商锁定的担忧，促成了向混合方法的演变，包括公用云、私有云和本地部署的组合。面对众多的选择，企业将越来越多地选择最佳工具来优化性能和经济效益。随着云提供商更加积极地实现自身差异化，企业开始采用多云策略，以充分利用每个云提供商最擅长的领域。在某些情况下，最好的方法是将一些工作负载保留（甚至遣返）在本地，以优化经济性，特别是对于非动态工作负载。

有趣的是，云提供商正在适应这样一个现实：企业计算将在多种环境中进行，他们提供了一些工具，如 AWS Outposts 之类的工具，这些工具允许客户在本地运行计算和存储，并无缝地将本地工作负载与 AWS 云中的其他应用集成在一起。

在这个新的多云和混合云时代，冉冉升起的超级巨星无疑是 Kubernetes。Kubernetes 是 Google 在 2014 年推出的一个用于管理容器负载和服务的开源项目，它正经历着和 Hadoop 几年前一样的热情，有 8000 名与会者参加了它的 KubeCon 活动，还有源源不断的博客和播客。许多分析师认为，Red Hat 在 Kubernetes 世界因主要贡献带来的声望，在很大程度上促成了以 340 亿美元的价格被 IBM 收购。Kubernetes 的承诺是帮助企业在自己的数据中心和私有云以及一个或多个公用云上运行工作负载。

作为一种编排框架，Kubernetes 特别适合于管理复杂、混合的环境，它也成为机器学习的一个越来越有吸引力的选择。Kubernetes 让数据科学家能够灵活地选择他们喜欢的语言、机器学习库或框架，并训练和扩展模型，允许相对快速的迭代和强大的可重复性，而无需成为基础架构专家，同一基础设置服务多个用户（欲了解更多信息请点击此处）。Kubeflow 是为 Kubernetes 开发的机器学习工具包，它的发展势头很迅猛。

相对而言，Kubernetes 仍处于起步阶段。但有趣的是，上述情况可能预示着云机器学习的演变，因为数据科学家可能更喜欢 Kubernetes 的整体灵活性和可控性。我们可能正在进入数据科学和机器学习基础架构的第三个范式转变，从 Hadoop（直到 2017 年？）到数据云服务（2017 年~2019 年），再到由 Kubernetes 和 Snowflake（2019 年~?) 等下一代数据仓库主导的世界。

这种演变的另一面是复杂性的增加。当然，我们有机会提供一个完整的平台，可以抽象出大量的云底层基础架构的复杂性，让更广泛的数据科学家和分析师更容易进入这个美丽的新世界。

无服务器（Serverless）就是这种简化的一种尝试，尽管角度不同。这种执行模型使用户能够编写和部署代码，而无需担心底层基础架构。云提供商负责处理所有后端服务，并根据客户实际使用情况向他们收取费用。在过去的几年里，无服务器无疑是一个关键的新兴话题，这也是我们在今年的数据和人工智能全景图中增加的一个新类别。然而，无服务器对机器学习和数据科学的适用性，仍然有太多的工作要做，像 Algorithmia 和 Iguazio/Nuclio 这样的公司是早期参与者。

数据环境日益混合的另一个后果是，企业需要加大努力来获得对数据的控制。

在这样的一个世界里，有些数据位于数据仓库中，有些数据位于数据湖中，有些数据位于各种其他数据源中，跨越了本地部署、私有云和公用云，该如何查找、管理、控制和跟踪数据呢？ 这些努力采取了各种相关的形式和名称，包括数据查询、数据治理、数据编目和数据沿袭，所有这些都变得越来越重要、突出。

在混合环境中查询数据本身就是一个挑战，其解决方案属于存储和计算分离的总体趋势。（请观看 Starburst Data 的视频，这是一家提供企业版 SQL 查询引擎 Presto 的公司，来自我们的 Data Driven NYC 活动）。

数据治理是另一个迅速成为企业首要考虑的领域。数据治理的一般理念是管理数据，并确保数据在整个生命周期中具有较高的质量，它涉及了数据可用性、完整性、可用性、一致性和安全性等方面。值得注意的是，2019 年初，Collibra 进行了一轮 1 亿美元的融资，估值超过了 10 亿美元。

数据编目是另一种日益重要的数据管理方式。有效的数据编目是综合企业各种数据资产的字典。它们使用户（包括数据科学家、数据分析师、开发人员和业务用户）能够在自助服务环境中发现并使用数据。请参阅领先供应商 Alation 提供的这篇优秀说明。

最后，数据沿袭可能是最近才出现的数据管理类别。数据沿袭的目的是普货整个企业的“数据之旅”。它可以帮助公司了解数据是如何收集的，以及如何在其生命周期中对数据进行修改和共享。这一细分市场的增长受到许多因素的推动，包括合规性、隐私和伦理的重要性日益增加，以及对机器学习管道、模型的可重复性和透明性的需求。关于这个主题， O’Reilly 有一个很不错的播客可以看看。

今年加速发展的最后一个关键趋势是人工智能专用基础架构堆栈不断涌现。

管理人工智能管道和模型的需求，催生了快速增长的 MLOps（或 AIOps） 的类别。为了认清这种新趋势，我们在今年的全景图中增加了两个框，其中一个框放在基础架构（各种早期创业公司，包括 Algorithmia、Spell、Weights & Biases 等），另一个框放在开源（各种项目，通常也是相当早期的项目，包括 Pachyderm、Seldon、Snorkel、MLeap 等）。

机器学习工程师需要能够运行实验并快速迭代，在需要时访问诸如 GPU 之类的资源。在我们的 Data Driven NYC 活动中，我们已经特别介绍了一些早期的初创公司，他们提供了这样的基础架构，包括 Speell（视频）、Comet（视频）、Paperspace（视频）等。

随着 GPU 数据库的兴起和新一代人工智能芯片（Graphcore、Cerebras 等）的诞生，人工智能对基础架构产生了深远的影响，即使在较低的堆栈层面也是如此。人工智能可能会迫使我们重新思考计算的整个本质。

分析趋势

在分析中，我们将重点介绍几个关键趋势：

商业智能（BI）正在整合。
行动正在向企业人工智能平台转移。
横向人工智能仍然非常活跃。

在商业智能领域，过去几个月的明显趋势是我们在本文前面提到的收购活动的爆发：Tabluau、Looker、Zoomdata 和 Clearstory 的收购，以及 SiSense 和 Periscope 的合并（Periscope 首席执行官 Henry Glaser 去年曾在 Data Driven NYC 发表演讲）。

事后看来，随着数据可视化和自助式分析领域的商品化，以及涌现大量的纯服务供应商，商业智能在某种程度上是不可避免的。每家供应商，无论大小，都面临着多样化和扩展能力的压力。对于云收购者来说，这些新的产品线肯定会增加收入，但更重要的是，它们有扩大原产品线的能力，这是帮助产生核心平台的又一种工具。

商业智能还会有更多的整合吗？Microsoft 在 Power BI 中占据强势地位，但当整个细分市场整合，并且每家公司都有效地参与其中时，并购市场也可以有自己的动力。鉴于其 QuickSight BI 通常被认为有点落伍，AWS 可能有更强烈的产品需求。

随着商业智能的整合，数据科学和机器学习平台领域的热度持续上升。机器学习 / 人工智能在企业中的部署是一个大趋势，但仍处于早期阶段，各种参与者都在争先恐后地搭建自己选择的平台。

对该领域的大多数公司来说，明确的目标是促进机器学习 / 人工智能的民主化，让更多的用户和公司能够从中获得好处，因为机器学习 / 人工智能领域持续存在的人才短缺现象仍然是广泛采用的主要瓶颈之一。然而，不同的参与者有不同的策略。

一种方法是 AutoML。它涉及到自动化机器学习生命周期的整个部分，包括一些最单调乏味的部分。根据产品的不同，AutoML 可以处理从特征生成和工程、算法选择到模型训练、部署和监控的任何任务。DataRobot，是 AutoML 专家，自我们策划 2018 年全景图以来，已经进行了 1 亿美元的 D 轮融资（据说自那之后还进行了更多融资）。

该领域的其他公司，如 Dataiku、H20 和 RapidMiner，也提供了具有 AutoML 功能的平台，但也提供了更广泛的功能。例如，Dataiku 自 2018 年全景图以来进行了大约 1.01 亿美元的 C 轮融资，其总体理念是增强整个数据团队的能力（数据科学家和数据分析师），并抽象出处理整个数据生命周期所涉及的许多复杂性和繁琐性工作（如果想了解更多，请观看 Dataiku 首席执行官 Florian Douetteau 在 Data Driven NYC 发表的演讲视频）『免责声明：FirstMark 是 Dataiku 的投资者』。

云提供商当然是活跃的，比如 Microsoft 的 Learning Studio、Google 的 Cloud AutoML 和 Amazon 的 AWS Sagemaker。尽管云提供商实力很强大，但这些产品的范围仍然相当狭窄：通常难以使用，而且主要面向技术性很强的高级用户。它们还处于萌芽阶段。据报道，Amazon 云机器学习平台 Sagemaker 在 2018 年起步缓慢，在商业领域的销售额仅为 1100 万美元。

一些云提供商正积极与该领域的纯玩家合作：Microsoft参与了 Databricks 的 2.5 亿美元的 E 轮融资，这或许是未来收购的前奏。

除了企业人工智能平台外，横向人工智能的世界（包括计算机视觉、自然语言处理、语音等）仍然保持着令人难以置信的活力。

我们在之前的一篇文章中已经讨论过人工智能研究的现状：Frontier AI: How far are we from artificial “general” intelligence, really?（《人工智能前沿：讲真，我们离人工“通用”智能还有多远？》）

自那篇文章发表以来，人工智能领域的一些主要趋势包括：

自然语言处理的重大改进，特别是通过应用迁移学习（涉及对大量数据上进行训练模型，并针对正在处理的特定问题对其进行迁移和微调），使其能够在较少数据的情况下工作：参见 ELMO、ULMFit，最重要的是，来自 Google AI 的 BERT。
人们付出更多的努力，让人工智能能够在较少数据的情况下工作，包括单样本学习。
深度学习与强化学习相结合。
生成对抗网络的持续进展。

要了解更多信息，请参阅刚刚发布的两份重要报告：Nathan Benaich 的 State of AI Report 2019（2019 年人工智能状告报告》）、MMC Ventures 的 The State of AI: Divergence（《人工智能的现状：分歧》）。

应用趋势

最后，随着我们完成 2019 年全景图的旅程，从图表的左侧到右侧应用中需要重点关注的几个关键趋势如下：

机器学习 / 人工智能进入部署阶段
企业自动化和机器人流程自动化的兴起

在这个阶段，我们可能需要 3 到 4 年的时间才能尝试将机器学习 / 人工智能构建到几乎任何一个企业应用中，而这些企业应用都将为其提供支持。当然，肯定有有些尴尬的产品尝试（如第一代聊天机器人）和一些远远超前于现实的大型营销主张（特别是来自试图使用机器学习 / 人工智能改造成现有产品的老公司），总体而言，这还为时尚早。许多构建机器学习 / 人工智能的初创公司仍在了解从研发模式向全面扩展运营转变的挑战（关于这个话题，我在之前的博文中写了一些想法：Scaling AI Startups（《扩大人工智能初创公司的规模》））。

但未来几年的趋势似乎很明显：针对一个给定的问题，看看机器学习 / 人工智能能否产生影响，如果可以，就构建一个人工智能（或人工智能驱动）应用来更有效地解决这个问题。经过几年的评估和实验，我们完全进入了人工智能的部署阶段。在接下来的几年内，机器学习 / 人工智能产品将被部署到整个企业，这一点显而易见，也是不可避免的。

一些产品将由内部团队使用上述企业人工智能平台来构建和部署。其他的将是具有嵌入式人工智能的全栈产品，由不同的供应商提供，其中人工智能部分可能对客户来说基本是不可见的。还有一些是由提供各种产品和服务组合的供应商提供的（有关这种方法的例子，请参阅 Element AI 首席执行官 Jean-Francois Gagne 的演讲）。

成熟正逐渐到来，无论是在技术上还是在产品上。机器学习 / 人工智能在当前状态下能做什么，不能做什么，这一点越来越清晰。我们开始对机器和人类之间正确分配任务有了更好的认识（请参阅 x.ai 首席执行官 Dennis Mortensen 的演讲，关于构建第一个人工智能应用的经验教训）。例如，下一代客户服务聊天机器人，在机器学习 / 人工智能、可配置性和透明性之间提供了更智能的组合，为最终用户带来了最大的利益。请参阅 Ada 首席执行官 Mike Murchison 就此主题发表的精彩演讲。Ada 是 Data Driven NYC 的自动化客户体验领域的新兴领导者。『免责证明：FirstMark 是 x.ai 和 Ada 的投资者。』

展望未来，随着机器学习 / 人工智能在高性能数据堆栈的支持下逐渐变得普及，我们是否看到了全自动化企业的曙光？

自信息技术出现以来，企业一直受到“孤岛化”（siloisation）的困扰，各种系统和数据分散在各个部门，彼此之间无法沟通（这导致了庞大的系统集成服务行业），而人类则充当了两者之间的“粘合剂”。在一个数据和系统越来越集成，机器学习 / 人工智能将人类从某些功能中移除的世界里，现在比以往任何时候，都更有可能想象企业以一种日以自动化、系统化的方式运作。

例如，设想一个自动化企业，需求的增加（通过机器学习预测）自动触发供应商订单的增加，这些订单会自动记录到财务系统中（可以自动计算和支付薪酬奖金等）；或者预期的需求减少可能会自动触发绩效营销支出的相应增加等。

在未来的世界里，企业不仅会成为完全自动化的组织，最终还会成为自我修复和自治的组织，这是我们在去年关于人工智能和区块链的演讲中探讨过的一个话题。

然而，我们离那个阶段还很远，今天的现实主要集中在机器人流程自动化上。这是一个炙手可热的类别，UI Path 和 Automation Anywhere 等领军企业发展非常迅速，并且正如上面提到的那样，筹集了大量资金。

机器人流程自动化（Robotic Process Automation）的缩写是 RPA（尽管可能令人失望的是，它并没有利用任何真正的机器人），涉及通常非常简单的工作流程，通常是手动（由人类执行）和重复性的，然后用软件替代它们。许多机器人流程自动化是发生在后台功能中（如发票处理）。

机器人流程自动化是由围绕数字化转型的一股非常强劲的顺风推动的（该领域的领军者已经存在多年，但当数字化转型成为当今热门话题时，就突然迎来了高速的增长）。它还提供了强大的投资回报率，因为它的实现可以直接与人类执行相同任务的成本进行比较。机器人流程自动化对技术服务于巨头也非常有吸引力，因为它涉及大量的实现服务（因为软件需要针对无数不同的工作流进行配置）；因此，机器人流程自动化初创公司从与这些大型服务公司的强大合作关系中受益。

人们有理由对机器人流程自动化持怀疑态度。有些人认为它基本上是非智能的“创可贴”，或者说是某种权宜之计，采用由人类执行的低效工作流，然后让机器来完成。从这个角度来看，机器人流程自动化可能只是在创建下一级技术债务，随着环境的变化，自动化的机器人流程自动化功能还会发生什么样的变化，人们对此并不清楚，除了导致需要更多的机器人自动化来讲旧任务重新配置到新环境之外。

以上原因是，至少在这个阶段，机器人流程自动化更多的是关于自动化，而不是智能；更多的是关于基于规则的解决方案，而不是人工智能（不要被机器人流程自动化供应商的营销鼓噪所迷惑）。

机器人流程自动化应该和智能自动化区分开来，智能自动化是一个以机器学习 / 人工智能为中心的新兴类别。智能自动化还以企业流程和工作流为目标，但它更多的是以数据为中心，而不是以流程为中心，并且最终能够学习、改进和修复。

智能自动化的一个例子是智能文档处理（ADP），在这个类别中，机器学习 / 人工智能可以被用来理解文档（表格、发票、合同等），其水平可与人类相比，甚至更好，但大规模的情况除外。要了解有关更多背景，请参阅 Hyperscience 在 Data Driven NYC 发表的演讲。『免责证明：FirstMark 是 HyperScience 的投资者』

在未来几年里，观察这些空间将是特别有趣的事，机器人流程自动化和智能自动化有可能会合并，除非后者的进展如此之快，以至于限制了人们对前者的需求。

本文文字及图片出自 InfoQ