Python、R、Java、 C++等:从业界反馈看机器学习语言趋势
对于开发者来说,掌握什么编程语言能更容易找到机器学习或者数据科学的工作?
这是个许多人关心的问题,非常实际,也在许多论坛被翻来覆去地讨论过。非常显著的是 “Python 是大趋势”这一论调,似乎它即将在机器学习领域一统天下。那么这种说法到底有几分事实?
首先要指出的是,大多数对编程语言的讨论都比较主观。
比如说,有的开发者(尤其是初学者)会因为一门语言的某个特性很契合自己的使用习惯、用着最顺手,就狂赞这门语言,而对其他语言的优点选择性失 明。而这篇 IBM 开发者论坛的文章,则尽量避免了主观判断,用数据来展示各门开发语言在工业界的实际使用情况,可以说是十分难得。毕竟,统计学习的核心就是用数据说话。 AI 开发者应该更明白可靠数据相比主观臆测的价值。
闲话少说,我们来看看 2016 年开发语言使用情况统计,到底哪门语言的使用人数上升最快?居前几位的都是哪些?
图1:机器学习与数据科学领域各语言的雇主招聘指数对比
如图所示,这是利用美国职位搜索引擎 indeed.com 得出的机器学习、数据科学招聘趋势:对这些领域内开发职位所列出的编程语言要求进行了统计。它展示出公司、雇主们都在寻找哪些语言技能。但注意:
- 这并不能精确体现各公司开发人员正在使用哪些语言。
- 这是美国的机器学习业界趋势,与中国、学界关系不是那么紧密。
- 没有包涵在搜索结果内的语言,不代表它们的招聘职位比上述语言要少。
我们可以清楚看出,美国雇主最需要的前四大语言排名是 Python,Java,R,C++。其中,Python 在 2015 年中超过 Java 跃升至第一。
然后,把搜索结果限制在机器学习领域(去掉数据科学),数据其实差不多:
图2:机器学习领域各语言的雇主招聘指数对比
这张折线图中包含了 Lua,但由于它的招聘职位实在太少,代表 Lua 的线与坐标轴重合。
我们能从这两组数据中推断出什么?
- Python 是市场的领先者,作为最受欢迎的机器学习语言当之无愧。 另外,Python 与 Java 之间的差距正在被拉开。但是 Java 与 R 之间的差距正在被缩小。雷锋网获知,有业内人士对居第二位的语言是 Java 而不是 R 感到惊讶。通常,大家的主观感受是除了 Python,使用 R 语言开发机器学习应用最普遍。
- Python 并没有成为霸主。各主流语言的招聘需求都很多。对小众语言如 Lua 和 Julia ,目前业界的需求确实小些,但其他语言都占有了相当的比例。
- 进入 2016 年后,市场对所有语言的需求都大幅上涨。Python 并没有与其他语言拉开明显差距。这表现出,最近一年里业界对机器学习和数据科学整体的兴趣和重视。
- Scala 在 2014 年之后的增长十分惊人。2014 年之前,对它几乎没有招聘需求。但那年之后一直在稳定增长。2016 年,它赶上了 Javacript,达到主流语言阵营的水平。
- 作为一门口碑不错的新兴语言,Julia 的普及程度还很低。但在 2016 下半年有了巨幅增长。现在还看不出来它是否会成为主流语言。
关于 Scala 和 Julia 的增长趋势,在它们的增长率折线图中,我们可以很明显的看出来:
图3:Scala,Julia,Lua 在机器学习、数据科学领域的雇主招聘指数增长率
然后,当我们省略掉 Scala、Julia 和 Lua,统计主流语言的增长率,可以明白无误看出 Python 和 R 的增长速度远超其他主流语言:
图4:机器学习与数据科学领域,主流语言的雇主招聘增长率
R 的增长率始终高于 Python,位居第一,更是远超 Java。以此来看,在可预测的将来,R 不但不会消失,还会成为更受欢迎的主流机器学习语言。因此,说“Python 是未来大趋势”肯定是不对的。
但是,当我们聚焦于细分领域“深度学习”,数据就变得很不一样:
图4:深度学习领域各语言的雇主招聘指数对比
在深度学习市场,对 Python 的招聘需求仍然最高。但前五大语言的排序变成了 Python,C++,Java,C,R。这里有很明显的对高性能计算语言的侧重。 而且,Java 的增长速度惊人,它可能很快成为深度学习市场的第二位。在可预期的将来,R 还不会成为最受欢迎的深度学习语言。令人惊讶的是 Lua 的存在感之低。要知道,开源框架巨头之一的 Torch 便是基于 Lua,许多开发者因此会认为它在深度学习市场占有特殊地位。
对于文章开头提出的问题——雇主需要掌握什么语言的开发者,答案已经很明确了:
- 在机器学习和数据科学市场,Python, Java, 和 R 的招聘需求最大;
- 在深度学习领域, Python, Java, C++ 以及 C 更被公司欢迎。
但雷锋网的读者们请注意,这只是私营公司的招聘需求。学界研究人员的偏好会有很大出入。另外,自学 AI 的业余爱好者、暂时没打算在这行谋生的,也不需要对这些数据太过在意。
至于文章原作者的个人观点,他本人较倾向 Python。原因有二:
1. 基于 Python 的顶级机器学习框架选择较多。
2. 作者来自计算机专业背景,Python 的逻辑更适合。相比之下,R 语言就更适合统计学、数学背景的开发者。在 Python 之外,作者更倾向于使用 C++,这是因为他用 C++ 写代码写了半辈子,已经习惯了。其他人、新人可能更适合学习其他语言。比如说,写代码功底不深的统计学背景开发者通常用 R 语言更顺手。经验丰富的 Java 开发者可以接着用 Java,尤其有那么多开源 Java API 。
归纳起来,还是程序猿的个人学习、开发经历,以及知识背景影响了他的语言偏好。
很少有人能够涉猎所有主流语言,即便只掌握几门语言,也未必在每一门上的开发经验都够深。因此,老司机对新入门开发者的语言推荐都带有强烈主观 色彩。即使拿这篇以陈述数据为主的文章来说,也有它的主观局限:Matlab/Octave 和 Lisp,这两门重头语言并没有包括在内。这大约是由于作者并没有充分接触这三门语言。而 AI 大牛吴恩达对新手的建议就是选择 Octave 或者 Matlab 起步。
对于新入门、正犹豫选择哪门语言的技术宅,关键还是在投入大量时间之前多听、多看、多了解;比较不同人的观点,选择最适合自己的。
你也许感兴趣的:
- 【程序员搞笑图片】数据类型简明指导
- 33 种编程语言的 UUIDv7 实现
- 【外评】Rust,你错了
- 【外评】为什么人们对 Go 1.23 的迭代器设计感到愤怒?
- 华为自研编程语言“仓颉”来了!鸿蒙应用开发新语言,性能优于 Java、Go、Swift
- 【外评】JavaScript 变得很好
- 【外评】华为发布自己的编程语言 “仓颉”
- VBScript 废弃:时间表和后续步骤
- 【外评】BASIC 编程语言 60 岁了
- 【外评】为什么 ALGOL 是一种重要的编程语言?
你对本文的反应是: