选择机器学习模型，要注意这 7 个问题

| 2021-08-13

本文最初发表于 Towards Data Science 博客，经原作者 Santiago Valdarrama 授权，InfoQ 中文站翻译并分享。

和很多人的想法相反，性能最好的机器学习模型未必是最好的解决方案。在 Kaggle 竞赛中，性能是你需要的全部。实际上，这也是另一个需要考虑的因素。下面让我们从模型的性能开始，并重新考虑一些其他考虑因素，以便在选择模型来解决问题时牢记在心。

1. 性能

模型结果的质量是选择模型时应考虑的基本因素。优先选择能够使性能最大化的算法。取决于问题，不同的度量标准可能对分析模型的结果有所帮助。举例来说，最流行的度量有正确率、准确率、查全率和 F1 分数。

切记，并非每一个度量都适用于所有的情况。例如，在处理不平衡的数据集时，正确率是不适当的。在我们准备开始模型选择过程之前，选择一种良好的度量（或一组指标）来评估模型性能是一项至关重要的任务。

2. 可解释性

很多情况下，对模型结果的解释是至关重要的。遗憾的是，很多算法就像黑盒子一样工作，无论结果如何，都很难解释。在这些情况下，缺乏可解释性可能是成功或失败的决定性条件。

如果存在可解释性问题，线性回归和决策树是很好的选择。神经网络则不然。选择好的候选者之前，一定要知道每种模型的结果是否易于解释。有意思的是，可解释性和复杂性通常存在于两个极端，所以接下来我们来看看复杂性。

3. 复杂性

一种复杂的模型在数据中可能会发现更多有趣的模式，但是，这会使维护和解释更加困难。

这里有一些不严谨的概括，需要记住：

复杂性越高，性能就越好，但是成本也越高。
复杂性与可解释性成反比。模型越复杂，解释结果就越困难。

抛开可解释性不谈，构建和维护模型的成本是项目成功的关键因素。复杂的设置会对模型的整个生命周期产生更大的影响。

4. 数据集大小

可用的训练数据量是选择模型时要考虑的主要因素之一。

神经网络在处理和合成大量数据方面确实很出色。KNN（K-Nearest Neighbors，K- 最近邻）模型更好，示例也更少。除了可用的数据量外，还有一个重要的考虑因素是，为了获得好的结果，你真正需要多少数据。有时候，你可以通过 100 个训练例子来建立一个很好的解决方案；有时候，你需要 100000 个例子。

利用这些与你的问题和数据量有关的信息，选择一个模型来处理它。