每个人都应该知道的十个机器学习常识

图0：每个人都应该知道的十个机器学习常识

当别人在高谈阔论机器学习时，你却插不上嘴，这是一种怎样的体验？不懂机器学习没有关系，但你一定要知道下面的十个机器学习基本常识。曾经在Endeca、谷歌和LinkedIn领导机器学习开发的Daniel Tunkelang为我们概括总结了这十个常识。

1. 机器学习就是从数据中挖掘洞见，而人工智能是炒作。

只要使用了正确的训练数据和算法，机器学习可以解决大部分问题。而所谓的人工智能，只不过是一种包装。只要有助于营销，你要把它叫作什么都可以。

2. 数据和算法是机器学习的核心，而数据更为重要。

虽然人们热衷于研究机器学习算法，但数据才是机器学习的关键要素。机器学习可以没有复杂完备的算法，但没有高质量的数据就不行。

3. 如果你没有大量数据，就不要使用太复杂的模型。

机器学习根据输入参数来探索模型空间，参数越多，越有可能出现过拟合，所以应该要尽量遵循简单模型的原则。

4. 机器学习的成果取决于数据的质量。

种瓜得瓜，种豆得豆。机器学习只能发现已经存在于数据中的模式。比如在解决分类问题时，就要求训练数据具有清晰的特征。

5. 只有当训练数据具有代表性时，机器学习才能奏效。

过去不能代表未来。要时刻警惕训练数据和生产数据之间出现倾斜，经常性地训练数据，避免数据模型过时。

6. 机器学习最困难的部分其实是数据转换。

机器学习的大肆炒作可能会给你造成一种印象，就是机器学习主要是如何选择和调整算法。但实际上，机器学习工作的大部分时间花在了数据清理和特征工程上，也就是将数据的原始特征转换成更具表示性的特征。

7. 深度学习是革命性的，但不是银弹。

深度学习对部分传统的特征工程进行了自动化，特别是在图像和视频处理领域。但深度学习不是银弹，我们无法在它擅长的领域之外应用它，况且，我们仍然要花很多精力进行数据清理和转换。

8. 机器学习系统也是高度脆弱的。

机器学习算法不会干掉人类，干掉人类的是人类自己。机器学习系统如果出现故障，通常都不是因为机器学习算法本身，而是人类在训练数据中引入了错误。要时刻警惕，软件工程中出现的错误在机器学习系统中同样会出现。

9. 机器学习可能在无意之中创造出可自我实现的预言。

今天通过机器学习做出的决策，将会影响未来收集到的训练数据。如果你在机器学习系统中嵌入了某种偏见，它会持续不断地生成新的训练数据，这些数据反过来增强了这种偏见，而有些偏见会毁掉人类的生活。所以，不要让机器学习系统有机会创造出可自我实现的预言。

10. 人工智能不会自我感知，也不会崛起到要干掉人类。

很多吃瓜群众从科幻电影中看到人工智能。但要注意，我们可以从科幻电影中获得灵感，但它们毕竟不是现实，我们真正要担心的是人类无意识地在机器学习系统中嵌入偏见。所以，我们根本不需要去担心什么“天网”或“超智能”。

你也许感兴趣的：