不知道如何提升深度学习性能？我们为你整理了这份速查清单-白红宇

不知道如何提升深度学习性能？我们为你整理了这份速查清单

阅读量：6183 次

发布时间：2019-06-21

本文共 3051 字，大约阅读时间需要 10 分钟。

我被问到最多的问题是“我如何获得更高的精度？”。机器学习工程师，无论是新手还是有经验的，都会问这个问题。

因为对业务来讲，机器学习最有价值的地方通常是它的预测能力，所以这个问题很有意义。提高预测精度是从现有系统中榨取更多价值的简单方法。

本指南将分成4个不同的部分，每个部分都包含一些策略。

数据优化（Data Optimization）

算法调整（Algorithm tuning）

超参数优化（Hyper-Parameter Optimization）

合并，合并还是合并（Ensembles, Ensembles, Ensembles）

并非所有这些想法都可以提升性能，越把它们应用到同样的问题上，就越能看到有限的效果。如果尝试了它们中的一些还是没有起色？那就表明，应该重新考虑一下业务问题的核心解决方案了。本文只是一张速查单，因此，在每个部分，我都会给出更详细资源的链接。

数据优化（Data Optimization）

平衡数据集（Balance your data set）

如果是分类问题，那么，提高表现不佳的深度学习模型性能的最简单方法之一是平衡数据集。真实世界的数据集通常是不平衡的，如果希望有最好的精度，那么深度学习系统要学习如何在两个类之间根据特征而不是通过复制它的分布进行选择。

常用方法包括：

二次采样多数类（Subsample Majority Class）：可以通过对多数类进行二次采样来平衡类分布。

过度采样少数类（Oversample Minority Class）：可以使用替换采样来提高少数类的比例。

这里有篇好文章，它详细介绍了处理这个问题的更多细节：

开源标签软件

图像（Images）：

音频（Audio）：

视频（Video）：

生成更多数据

或者假装一下，直到成功。用于提高精度一个常被忽视的方法是，从已有的数据中创建新数据。以照片为例，工程师常常通过旋转和随机移动现有图像来创建更多图片。这种变换还增加了训练集的减弱过度拟合。

这里有一个创建更多数据的绝佳资源，可以用于图像问题：

算法调整（Algorithm Tuning）

复制研究人员的方法

你是否正在研究一个问题，而该问题的背后有很多研究？如果是的，那么你很走运，因为可能有很多工程师已经考虑过如何为该问题获取更好的精度。读读跟这个主题有关的研究论文并注意他们用来解决问题的不同方法！甚至，他们或许已经在GitHub上发布了代码，而这些代码让你爱不释手。

谷歌学术搜索（Google Scholar）是开始进行搜索的绝佳地方。他们还提供很多工具帮助你寻找相关的研究。

我使用Mendeley来存储和组织研究论文。

算法抽查（Algorithm spot check）

你不是失败者，你只是还没成功。无法知道哪个机器学习算法最适合用来解决问题。每当我碰到新问题时，如果新问题背后没有很多研究方法，那么我会看看一些可用的方法，并全部试上一遍。

深度学习（CNN、RNN等等）和经典机器学习方法（随机森林、梯度提升等等）。

对所有试验结果进行排序，然后对表现最佳的算法进行加倍。

查看数据驱动方法来选择机器学习算法：

超参数优化（Hyper-Parameter Optimization）

学习速率（Learning rates）

亚当优化算法（the Adam optimization algorithm）是经过验证的。它在所有的深度学习问题常常有令人惊讶的结果。即使它有出色的性能，但是它仍然会让你深陷局部最小问题的迷津。具有亚当优化算法的好处，并有助于消除陷入局部最小问题迷津的一个更好的算法是热重启的随机梯度下降法（Stochastic Gradient Descent with Warm Restarts）。

关于学习速率的好文章在这里：

$\"image\"$