AlphaGo Zero的启示:我们的创新究竟出了什么问题?

我们很难不对人工智能产生深刻印象,甚至有点儿警惕。1997年,当IBM的超级计算机“深蓝”(Deep Blue)击败了当时世界上最伟大的国际象棋选手加里·卡斯帕罗夫(Garry Kasparov)时,它还只是一件需要人类密切关照和指导的昂贵硬件设备。但如今,快速发展的人工智能已经在很多领域远超人类。

对计算机来说,围棋是一种比象棋更难掌握的游戏。然而,2016年低调出现的AlphaGo,经过短短几个月的训练后,就轻松地击败了世界上最好的围棋选手。今年10月,人工智能企业DeepMind推出了运行速度更快、使用硬件更少的AlphaGo Zero。通过72小时的自我学习和训练,AlphaGo Zero以10比0的佳绩打败了它的“前辈”AlphaGo。

这种令人震惊的进步速度,再次引发了人们对机器人将替代人类,导致人类大规模失业的焦虑。但部分人认为,这种焦虑毫无必要。因为AlphaGo Zero并不是我们创造新想法的典型方式,所以和它相关的生产力和技术进步没有意义。

我们知道,AlphaGo Zero的先进之处在于完全从零开始,不需要参考人类的先验知识,更不需要任何历史棋谱的指引,完全依靠自我强化学习,左右互搏来增长棋艺,最终达到百战百胜。

这种思维方式和国际象棋、AlphaGo等完全不同。此前,很多计算机先驱们都认为,国际象棋也许是个发展人工智能的有意义的领域,但这种期待最终落空了。

因为不管是围棋还是象棋,在上千年传承的过程中,虽然不断有新的突破,但整体的思维或套路依然离不开一个“赢”字。从优化角度来说,利用人类知识进行象棋学习会让机器掉入和人类思维一致的“陷阱”。

在这种情况下,“优化过程反而阻碍了进化”。这也是卡斯帕罗夫在其新书《深度思考》(Deep Thinking)中所想要表达的观点。

正如卡斯帕罗夫所描述的那样,在国际象棋中,在优化思路的影响下,当机器发现通过牺牲皇后可以快速取得胜利,机器便得出结论:如果要赢,必须要牺牲掉皇后。这种认知模式虽然很实用,但问题是,我们的目的是改变世界,让机器更加智能化,而不是仅仅赢得一场国际象棋比赛。

AlphaGo Zero这种从零开始的自我驱动的强化学习机制,使机器尝试了各种可能性,打破了基于人类知识的固化思维,反而获得了更优解。

从国际象棋到基础科学

但这不仅仅是一个关于国际象棋的警示故事。

这种结果导向的思维方式,不仅仅存在于计算机象棋中,在科学研究中也随处可见。比如为了更加快速地获得结果,研究人员选择了更实用的捷径,却忽略了更深入、值得冒更大风险去做的研究。对科学来说,如果仅仅只是关注获得“胜利”这一结果,往往会本末倒置,走入“死胡同”。

在类似思路的指引下,企业们正在减少对基础科学研究的投入。此前,企业们曾资助过许多重要的基础研究。在这些资金的帮助下,曾在索尼和IBM公司工作的江崎玲于奈(Leo Esaki)、德州仪器公司(Texas Instruments)的杰克•基尔比(Jack Kilby)获得了诺贝尔物理学奖;通用电气公司的欧文·朗缪尔(Irving Langmuir)摘得了诺贝尔化学奖;而贝尔实验室更是诞生了数不清的诺贝尔奖得主。可以说,那是个企业们敢于投资基础科学的时代。

然而,这种情况已经变了。正如Ashish Arora、Sharon Belenzon和Andrea Patacconi三位经济学家的研究报告所显示的那样:企业们仍在大力投资创新,但重点放在了实际应用上,而非基础科学。基础研究则通常被外包给了更小的机构,后者的知识产权很容易被买卖。

在这个过程中,企业研究人员创造了更多的专利,但他们在学术期刊上却越来越不显眼。正如阿罗拉教授所说的那样,企业越来越关注开发,而不是研究,而大多数的基础研究最终也都是为了商业上的用处。

这种思维方式给研究带来的影响是,研究团队的规模越来越大,专业化的研究人员越来越多,研究成本也越来越昂贵,但新的想法反而越来越少了。因为在某个“明确目的”的指引下,研究者们从一开始就已经否定了其他的可能性。

KPI陷阱

这种以结果为导向的思维方式,在现代企业中也有一种典型的表现方式,那就是KPI制度。

根据和君咨询合伙人袁卫平的定义,在现代企业中,KPI主义是企业将短期财务指标(如利润和销售收入)作为关键绩效指标来考核公司高管,并层层向下分解,直至一线的运营维护、产品研发和市场开发人员。指标完成的结果要排序,排名和个人奖金紧密挂钩,并直接影响工资和职位晋升。财务指标完成不好,排名在后的员工,会受到训诫乃至解雇。这些被细化和分类的指标,最终是为了实现精确管理,对工作成果进行量化。

在这种完全以目标为导向的体系里,员工在焦虑和恐惧的支配下,在追随财富的原始欲望驱动下,有时会不择手段地完成相关指标。这种不择手段,可能是牺牲企业的信用,可能是牺牲产品的质量,最终都让KPI变成了一剂毒药。

2016年,当百度因为“魏则西事件”遭遇史上最大的信任危机时,李彦宏在内部邮件中质问“为什么很多每天都在使用百度的用户不再热爱我们?为什么我们不再为自己的产品感到骄傲了?问题到底出在哪里?”

反省的结果是“因为从管理层到员工对短期KPI的追逐,企业价值观被挤压变形了,业绩增长凌驾于用户体验,简单经营替代了简单可依赖”,最终与用户渐行渐远。李彦宏更进一步警告,“如果失去了用户的支持,失去对价值观的坚守,百度离破产只有30天”。

而在百度之前,索尼常务董事就曾撰文称“绩效主义毁了索尼”;王石也曾在其微博中痛呼,“绩效主义像企业的脓包”,而小米,直接干脆就“抛弃了KPI”。

除了对员工不择手段的担忧,在瞬息万变的互联网时代,仅仅只依靠某些量化指标来评判员工的工作量和勤奋程度,有时候并不合理。毕竟随着技术和市场的快速更迭,工作目标也会随之不断调整,在这种情况下,盲目苛求某些量化指标,反而会扼杀企业的创新能力或低估杰出员工的价值等。

比如,当公司以代码行数作为考核目标,可能会因此鼓励大量垃圾代码的产生,而错过了简洁优雅的优秀代码;如果以解决Bug的数量作为评判标准,可能会挫败优秀程序员的积极性。因为如果程序员因为修复自己项目的Bug数量多而受到赏识,估计就没有员工愿意一开始就写出完美无缺的代码了。诸如此类的例子不胜枚举。

在互联网时代,不可否认的是,企业们会有越来越多的情况,需要面对未知的场景,提出颠覆的观点,创造不曾存在的模式,开发全新的产品。那么,在这一切创新诞生之前,企业们应该以什么样的KPI去给自己的员工定性呢?是每个月提交报告,还是多做几个ppt呢?

正如资深 IT 人曹政所说的那样,KPI的意义在于约束平庸的员工,以提升他们的执行力,而不能用于去规范优秀的人才。如果我们希望诞生“AlphaGo Zero”般的高级人才,如果我们想要不一样的创新,那么,首先要让人从既定的目标导向里解脱出来。

本文文字及图片出自 InfoQ

你也许感兴趣的:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注