关于机器学习，你必须知道的10件事情

很多时候需要为非专业人士解释机器学习，本文提供以下参考。

1.机器学习意味着：从数据中学习

机器学习目前风头正劲，AI也是热搜词汇。只要将合适的数据放入合适的模型，许多问题可以迎刃而解。如果能够帮助你宣传，就叫它AI吧。但请记住，AI，除了在学术界以外，常常是大家可以随意使用的热门词汇，用于描述他们想描述的一切东西。

2.机器学习主要关乎算法与数据，尤其是数据

很高兴能够在机器学习算法，特别是深度学习领域有一些进展，但是数据才是机器学习算法实现的关键因素。机器学习可以没有复杂的算法，但不能没有好的数据。

3.除非你有许多数据，否则你应该坚持使用简单的模型

机器学习将基于数据识别模式，构建由参数定义的模型。如果你的参数定义过多，你很容易过度拟合。详细的解释需要更多数学知识，但是机器学习的原则是：尽可能使模型简单。

4.机器学习的性能受到输入数据质量限制

“无用输入，无用输出”巧妙地点明了机器学习的关键，机器学习只能发现输入数据中的模式。对于有监督的机器学习任务，例如分类，输入数据必须标记正确，特征明显。

5.机器学习需要具有代表性的数据

正如基金介绍书中所说：过去的表现不对未来结果作保证。机器学习则只能对与训练数据分布相同的样本外有良好效果。因此，应对训练数据和样本外数据的偏离表示警觉，经常性地重新训练你的模型以免失效。

6.机器学习中大部分的困难工作为数据转换

从天花乱坠的宣传中，你可能认为机器学习的主要工作为编写和调试代码。但现实更加乏味：大多数你的时间和精力将用于数据清洗和特征工程（将原始特征转化为更有代表性的特征）上。

7.深度学习是革命性的进度，但并不是灵丹妙药

深度学习在很多机器学习应用领域都做出重大贡献，进一步地，深度学习将一些传统需要特征工程的工作自动化进行，特别是在图像和视频领域。但是深度学习并不是一种新技术，仍然需要在数据清理和转化方面付出巨大的努力。

8.机器学习系统极易受操作者误差影响

借用NRA一句话：机器学习算法不会杀死人，只有人会杀死人。当机器学习算法系统奔溃时，一般很少是由于机器学习算法错误。而是因为大多数时候，你在训练数据中引进了人为误差，或者一些系统误差。所以，永远保持质疑。

9.机器学习可以漫不尽心地创造自我实现的预言

在机器学习的许多应用中，你今天做的决定将影响明天收集的训练数据。一旦机器学习系统中嵌入偏差，它就会生成更多新的数据强化这些偏差，有一些偏差会毁掉人的生活。负责任一点：不要创造可自我实现的预言。

10.AI不会拥有自我意识，不用担心崛起并毁灭人类

许多人从科幻电影中了解AI，我们应当从科幻小说中得到灵感，但不应该受其蒙骗，将它当成事实。有许多真实且急迫的危害需要操心，从有意识的恐怖分子到无意识的有偏差的机器学习模型。

你也许感兴趣的：